METR тестує Mythos Preview для оцінки горизонту виконання задач ШІ
METR протестувала Mythos Preview на задачах для вимірювання горизонту виконання. Модель пройшла бенчмарк, досягнувши успіху в 50% випадків для задач, які потребують 16+ годин людської роботи.
🔬 Перспективне дослідження. Показує прогрес великих мовних моделей у вирішенні складних задач, але потребує додаткової перевірки на більших наборах даних.
🟢 МОЖЛИВОСТІ
- Можливість автоматизувати задачі, які раніше потребували 16+ годин людської праці
- Збільшення продуктивності за рахунок швидшого виконання складних задач (3 години проти 1.5 у Gemini 3.1 Pro)
- Створення нових інструментів для аналізу та вирішення задач, які раніше були неможливі
🔴 ЗАГРОЗИ
- Обмеженість поточних бенчмарків може приховувати реальні недоліки моделі
- Необхідність розробки нових, більш складних наборів задач для адекватної оцінки можливостей
- Ризик завищених очікувань щодо можливостей моделі на практичних задачах
🎯 Чи підходить це вашому бізнесу?
Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.
Заповнити профіль · 30 секундTL;DR
- •Mythos Preview досягла успіху в 50% випадків для задач, які потребують 16+ годин людської роботи.
- •Для 80% успіху моделі потрібно 3 години.
- •Gemini 3.1 Pro потребує 1.5 години для 80% успіху.
- •METR працює над новим набором довших задач.
- •Поточні бенчмарки мають обмеження.
Як це змінить ваш ринок?
У фінансовому секторі, де аналіз великих обсягів даних займає багато часу, ШІ може пришвидшити цей процес, дозволяючи швидше приймати рішення та виявляти ризики. Це знімає блокер з обробки даних в реальному часі.
Горизонт виконання задачі — час, необхідний для завершення задачі з певною ймовірністю.
Для кого це і за яких умов
Для компаній, які займаються аналізом даних, науковими дослідженнями та розробкою нових продуктів. Потрібна команда ML-інженерів для інтеграції та налаштування моделі. Мінімальний бюджет на обчислювальні ресурси (GPU або хмара).
Альтернативи
| Mythos Preview | Gemini 3.1 Pro | GPT-4o | |
|---|---|---|---|
| Ціна | Дані не розкриті | $0.0005/1K токенів | $0.0005/1K токенів |
| Де працює | Хмара | Хмара | Хмара |
| Мін. вимоги | GPU або хмара | API | API |
| Ключова різниця | Локальне розгортання | Простота використання | Широкий спектр можливостей |
💬 Часті запитання
Такий розбір щоранку о 08:00
Персональний AI-дайджест для вашої галузі — щодня у Telegram
Джерела
Сиолошная — оригіналНавчіть вашу команду будувати такі AI-автоматизації
За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.
Дізнатись більше → aiupskill.live