НейтральнаImpact 5/10🔬 Research👤 Для всіх

Дослідники навчили ШІ модель виключно на текстах до 1931 року

Системный Блокъблизько 2 годин тому0 переглядів

Дослідники створили мовну модель Talkie з 13 мільярдами параметрів, навчену виключно на текстах до 1931 року. Це дозволяє уникнути проблем "забруднення" тестів сучасними даними та питань авторського права при навчанні ШІ.

ВердиктНейтральнаImpact 5/10

🔬 Цікавий експеримент. Модель показує, як можна обійти обмеження авторських прав і уникнути "забруднення" даних.

🟢 МОЖЛИВОСТІ

  • Можливість створювати моделі, вільні від сучасних упереджень та "забруднення" даних
  • Використання даних, на які не поширюються авторські права, для навчання ШІ
  • Інструмент для перевірки гіпотез про розвиток знань та технологій

🔴 ЗАГРОЗИ

  • Обмеженість знань моделі даними до 1931 року
  • Ризик "тимчасового витоку" через сучасні доповнення до старих текстів
  • Потреба у великих обчислювальних ресурсах для навчання та використання моделі

🎯 Чи підходить це вашому бізнесу?

Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.

Заповнити профіль · 30 секунд
Детальний розбір ↓

TL;DR

  • Модель Talkie має 13 мільярдів параметрів.
  • Навчалася виключно на текстах до 1931 року.
  • Доступна на Hugging Face під ліцензією Apache 2.0.
  • Використовує книги, газети, журнали, патенти та судові акти.
  • Не знає сучасних слів та концепцій.

Як це змінить ваш ринок?

Для юридичних фірм це можливість аналізувати історичні судові документи без ризику порушення авторських прав. Знімає блокер щодо використання сучасних LLM для конфіденційних даних.

Тестове забруднення: Ситуація, коли модель отримує доступ до відповідей на тестові питання під час навчання, що спотворює результати оцінки.

Для кого це і за яких умов

7B модель: MacBook 16GB, без IT-команди, 15 хв. 13B: GPU $1,000+ або хмара ~$0.3/год, IT-спеціаліст, 1-2 дні.

Альтернативи

Talkie (до 1931)GPT-3.5 TurboLlama 3 8B
ЦінаБезкоштовно~$1.50/1M токенівБезкоштовно
Де працюєЛокально/ХмараAPIЛокально
Мін. вимогиMacBook 16GBAPI16GB RAM
Ключова різницяДані до 1931Сучасні даніСучасні дані

💬 Часті запитання

Відсутність проблем з авторським правом та уникнення "забруднення" тестових даних.

Такий розбір щоранку о 08:00

Персональний AI-дайджест для вашої галузі — щодня у Telegram

7 днів безкоштовно
AIlanguagemodelLLMtrainingdatacopyrightHuggingFace

Навчіть вашу команду будувати такі AI-автоматизації

За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.

Дізнатись більше → aiupskill.live