Дослідники навчили ШІ модель виключно на текстах до 1931 року
Дослідники створили мовну модель Talkie з 13 мільярдами параметрів, навчену виключно на текстах до 1931 року. Це дозволяє уникнути проблем "забруднення" тестів сучасними даними та питань авторського права при навчанні ШІ.
🔬 Цікавий експеримент. Модель показує, як можна обійти обмеження авторських прав і уникнути "забруднення" даних.
🟢 МОЖЛИВОСТІ
- Можливість створювати моделі, вільні від сучасних упереджень та "забруднення" даних
- Використання даних, на які не поширюються авторські права, для навчання ШІ
- Інструмент для перевірки гіпотез про розвиток знань та технологій
🔴 ЗАГРОЗИ
- Обмеженість знань моделі даними до 1931 року
- Ризик "тимчасового витоку" через сучасні доповнення до старих текстів
- Потреба у великих обчислювальних ресурсах для навчання та використання моделі
🎯 Чи підходить це вашому бізнесу?
Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.
Заповнити профіль · 30 секундTL;DR
- •Модель Talkie має 13 мільярдів параметрів.
- •Навчалася виключно на текстах до 1931 року.
- •Доступна на Hugging Face під ліцензією Apache 2.0.
- •Використовує книги, газети, журнали, патенти та судові акти.
- •Не знає сучасних слів та концепцій.
Як це змінить ваш ринок?
Для юридичних фірм це можливість аналізувати історичні судові документи без ризику порушення авторських прав. Знімає блокер щодо використання сучасних LLM для конфіденційних даних.
Тестове забруднення: Ситуація, коли модель отримує доступ до відповідей на тестові питання під час навчання, що спотворює результати оцінки.
Для кого це і за яких умов
7B модель: MacBook 16GB, без IT-команди, 15 хв. 13B: GPU $1,000+ або хмара ~$0.3/год, IT-спеціаліст, 1-2 дні.
Альтернативи
| Talkie (до 1931) | GPT-3.5 Turbo | Llama 3 8B | |
|---|---|---|---|
| Ціна | Безкоштовно | ~$1.50/1M токенів | Безкоштовно |
| Де працює | Локально/Хмара | API | Локально |
| Мін. вимоги | MacBook 16GB | API | 16GB RAM |
| Ключова різниця | Дані до 1931 | Сучасні дані | Сучасні дані |
💬 Часті запитання
Такий розбір щоранку о 08:00
Персональний AI-дайджест для вашої галузі — щодня у Telegram
Джерела
Системный Блокъ — оригіналНавчіть вашу команду будувати такі AI-автоматизації
За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.
Дізнатись більше → aiupskill.live