Які результати Opus 4.7 на GraphWalks?

Opus 4.7 набирає 58.6–76.9% на GraphWalks в залежності від розміру вікна.

Чи означає це, що MRCR більше не є релевантним бенчмарком?

Це залежить від конкретних потреб. Якщо вам потрібно оцінити здатність моделі до пошуку конкретної інформації, MRCR може бути корисним. Але якщо вам потрібно оцінити здатність моделі до багатоетапного міркування, GraphWalks може бути кращим вибором.

Anthropic пояснює провал Opus 4.7 на MRCR: це не баг, а фіча

TL;DR

•Anthropic свідомо відмовилася від бенчмарку MRCR.
•MRCR базується на ловушках і не відображає реальні задачі.
•Anthropic просуває GraphWalks як більш релевантний бенчмарк.
•Opus 4.7 набирає 58.6–76.9% на GraphWalks.
•Падіння в MRCR — побічний ефект зміни пріоритетів.

Як це змінить ваш ринок?

Для медіа та контент-індустрії це означає, що оцінка LLM для генерації контенту та аналізу даних повинна враховувати їхню здатність до багатоетапного міркування, а не лише пошук конкретної інформації.

Бенчмарк — стандартизований тест для оцінки продуктивності системи або моделі.

Для кого це і за яких умов

Оцінка LLM за допомогою GraphWalks вимагає доступу до великих обсягів даних та обчислювальних ресурсів. Для невеликих команд це може бути складно, але для великих компаній з ML-командами це може дати більш точне уявлення про можливості моделей.

Альтернативи

	MRCR	GraphWalks
Ціна	Безкоштовно	Дані не розкриті
Де працює	Хмара	Хмара
Мін. вимоги	Доступ до API	Доступ до API та обчислювальні ресурси
Ключова різниця	Пошук конкретної інформації	Багатоетапне міркування

💬 Часті запитання

MRCR базується на ловушках і не відображає реальні задачі, а GraphWalks краще відображає реальні завдання міркування.

Anthropic пояснює провал Opus 4.7 на MRCR: це не баг, а фіча

🟢 МОЖЛИВОСТІ

🔴 ЗАГРОЗИ

🎯 Чи підходить це вашому бізнесу?

TL;DR

Як це змінить ваш ринок?

Для кого це і за яких умов

Альтернативи

💬 Часті запитання

Такий розбір щоранку о 08:00

Джерела

Навчіть вашу команду будувати такі AI-автоматизації