ПозитивнаImpact 5/10🧪 Beta👤 Для всіх📺 Медіа і Контент🏦 Фінанси і Банкінг

METR тестує Mythos Preview для оцінки горизонту виконання задач ШІ

Сиолошнаяблизько 2 годин тому0 переглядів

METR протестувала Mythos Preview на задачах для вимірювання горизонту виконання. Модель пройшла бенчмарк, досягнувши успіху в 50% випадків для задач, які потребують 16+ годин людської роботи.

ВердиктПозитивнаImpact 5/10

🔬 Перспективне дослідження. Показує прогрес великих мовних моделей у вирішенні складних задач, але потребує додаткової перевірки на більших наборах даних.

🟢 МОЖЛИВОСТІ

  • Можливість автоматизувати задачі, які раніше потребували 16+ годин людської праці
  • Збільшення продуктивності за рахунок швидшого виконання складних задач (3 години проти 1.5 у Gemini 3.1 Pro)
  • Створення нових інструментів для аналізу та вирішення задач, які раніше були неможливі

🔴 ЗАГРОЗИ

  • Обмеженість поточних бенчмарків може приховувати реальні недоліки моделі
  • Необхідність розробки нових, більш складних наборів задач для адекватної оцінки можливостей
  • Ризик завищених очікувань щодо можливостей моделі на практичних задачах

🎯 Чи підходить це вашому бізнесу?

Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.

Заповнити профіль · 30 секунд
Детальний розбір ↓

TL;DR

  • Mythos Preview досягла успіху в 50% випадків для задач, які потребують 16+ годин людської роботи.
  • Для 80% успіху моделі потрібно 3 години.
  • Gemini 3.1 Pro потребує 1.5 години для 80% успіху.
  • METR працює над новим набором довших задач.
  • Поточні бенчмарки мають обмеження.

Як це змінить ваш ринок?

У фінансовому секторі, де аналіз великих обсягів даних займає багато часу, ШІ може пришвидшити цей процес, дозволяючи швидше приймати рішення та виявляти ризики. Це знімає блокер з обробки даних в реальному часі.

Горизонт виконання задачі — час, необхідний для завершення задачі з певною ймовірністю.

Для кого це і за яких умов

Для компаній, які займаються аналізом даних, науковими дослідженнями та розробкою нових продуктів. Потрібна команда ML-інженерів для інтеграції та налаштування моделі. Мінімальний бюджет на обчислювальні ресурси (GPU або хмара).

Альтернативи

Mythos PreviewGemini 3.1 ProGPT-4o
ЦінаДані не розкриті$0.0005/1K токенів$0.0005/1K токенів
Де працюєХмараХмараХмара
Мін. вимогиGPU або хмараAPIAPI
Ключова різницяЛокальне розгортанняПростота використанняШирокий спектр можливостей

💬 Часті запитання

Для запуску потрібна GPU або хмарні обчислювальні ресурси. Точні вимоги залежать від розміру моделі.

Такий розбір щоранку о 08:00

Персональний AI-дайджест для вашої галузі — щодня у Telegram

7 днів безкоштовно
AIMythosPreviewMETRbenchmarktaskcompletionLLM

Навчіть вашу команду будувати такі AI-автоматизації

За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.

Дізнатись більше → aiupskill.live