Anthropic пояснює провал Opus 4.7 на MRCR: це не баг, а фіча
Anthropic пояснила, що низькі результати Opus 4.7 на бенчмарку MRCR були свідомим рішенням, оскільки бенчмарк зосереджується на нереалістичних сценаріях. Натомість, вони віддають пріоритет GraphWalks, які краще відображають реальні завдання міркування.
🔬 Цікавий фокус. Anthropic змінює пріоритети в оцінці LLM, фокусуючись на більш реалістичних задачах.
🟢 МОЖЛИВОСТІ
- Можливість зосередитися на бенчмарках, які краще відображають реальні потреби бізнесу
- Оцінка LLM на основі GraphWalks може дати більш точне уявлення про їхню здатність до міркування
- Використання GraphWalks для розробки LLM, які краще справляються з багатоетапними задачами
🔴 ЗАГРОЗИ
- Ризик, що інші компанії продовжать використовувати MRCR, ускладнюючи порівняння моделей
- Необхідність переоцінки існуючих LLM на основі GraphWalks, що потребує додаткових ресурсів
- Можливість, що GraphWalks також має свої обмеження і не повністю відображає всі реальні сценарії
🎯 Чи підходить це вашому бізнесу?
Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.
Заповнити профіль · 30 секундTL;DR
- •Anthropic свідомо відмовилася від бенчмарку MRCR.
- •MRCR базується на ловушках і не відображає реальні задачі.
- •Anthropic просуває GraphWalks як більш релевантний бенчмарк.
- •Opus 4.7 набирає 58.6–76.9% на GraphWalks.
- •Падіння в MRCR — побічний ефект зміни пріоритетів.
Як це змінить ваш ринок?
Для медіа та контент-індустрії це означає, що оцінка LLM для генерації контенту та аналізу даних повинна враховувати їхню здатність до багатоетапного міркування, а не лише пошук конкретної інформації.
Бенчмарк — стандартизований тест для оцінки продуктивності системи або моделі.
Для кого це і за яких умов
Оцінка LLM за допомогою GraphWalks вимагає доступу до великих обсягів даних та обчислювальних ресурсів. Для невеликих команд це може бути складно, але для великих компаній з ML-командами це може дати більш точне уявлення про можливості моделей.
Альтернативи
| MRCR | GraphWalks | |
|---|---|---|
| Ціна | Безкоштовно | Дані не розкриті |
| Де працює | Хмара | Хмара |
| Мін. вимоги | Доступ до API | Доступ до API та обчислювальні ресурси |
| Ключова різниця | Пошук конкретної інформації | Багатоетапне міркування |
💬 Часті запитання
Такий розбір щоранку о 08:00
Персональний AI-дайджест для вашої галузі — щодня у Telegram
Джерела
Vibecoder — оригіналНавчіть вашу команду будувати такі AI-автоматизації
За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.
Дізнатись більше → aiupskill.live