Вінтажну LLM, навчену на даних до 1930-х років, дофайнтюнили для кодування: неочікувано добрі результати
Дослідники дофайнтюнили LLM, навчену виключно на даних до 1930-х років, для кодування. Неочікувано, вона досягла 4.5% на SWE bench, перевершивши деякі SOTA моделі початку 2024 року, що свідчить про те, що вік даних може бути менш критичним, ніж розмір моделі та навчання.
🔬 Цікавий експеримент. Показує, що справа не тільки в даних, а й в архітектурі та навчанні — для R&D команд, які шукають нові підходи.
🟢 МОЖЛИВОСТІ
- Можливість використовувати архівні дані для створення спеціалізованих моделей без потреби в сучасних даних
- Економія ресурсів на зборі та обробці великих обсягів сучасних даних
- Створення моделей з унікальними знаннями та перспективами, недоступними для моделей, навчених на сучасних даних
🔴 ЗАГРОЗИ
- Необхідність ретельного донавчання та налаштування моделі для досягнення прийнятних результатів
- Обмеженість знань моделі про сучасний світ та технології
- Ризик упереджень та неточностей, пов'язаних з застарілими даними
🎯 Чи підходить це вашому бізнесу?
Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.
Заповнити профіль · 30 секундTL;DR
- •Модель навчена виключно на даних до 1930 року.
- •Досягла 4.5% на SWE bench після донавчання для кодування.
- •Перевершила деякі SOTA моделі початку 2024 року.
- •Навчалась на 260B токенах.
- •Ваги та код викладені у відкритий доступ.
Як це змінить ваш ринок?
Для компаній, які працюють з великими обсягами архівних даних, це відкриває можливість створення спеціалізованих AI-моделей без потреби в зборі та обробці сучасних даних. Це знімає блокер з обмеженості ресурсів на збір даних.
Файн-тюнінг (Fine-tuning): процес донавчання попередньо навченої моделі на новому наборі даних для конкретної задачі.
Для кого це і за яких умов
Для R&D команд, які мають доступ до великих обсягів архівних даних та хочуть створити спеціалізовані AI-моделі. Потрібна команда ML-інженерів та ресурси для донавчання моделі.
Альтернативи
| Вінтажна LLM (дофайнтюнена) | GPT-4o | Claude Opus 3 | |
|---|---|---|---|
| Ціна | Безкоштовно | ~$20/1M | Ціна не оголошена |
| Де працює | Локально/Хмара | API | API |
| Мін. вимоги | GPU (для донавчання) | API | API |
| Ключова різниця | Навчання на архівних даних | Загального призначення | Загального призначення |
💬 Часті запитання
Такий розбір щоранку о 08:00
Персональний AI-дайджест для вашої галузі — щодня у Telegram
Джерела
Data Secrets — оригіналНавчіть вашу команду будувати такі AI-автоматизації
За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.
Дізнатись більше → aiupskill.live