ARC-AGI-3: людина — 100%, кращі моделі AI — 0,37%

Vibecoder19 днів тому2 перегляди

Бенчмарк ARC-AGI-3 складається з 135 інтерактивних середовищ, що оцінюють дослідження, моделювання світу, цільпоставлення та планування. Люди проходять його повністю, а найкращі AI моделі отримують менше 0,4% через квадратичну метрику RHAE. Це показує великий розрив між людським і машинним розумінням.

ВердиктЗмішанаImpact 8/10

🚨 Значний вплив на індустрію

🟢 МОЖЛИВОСТІ

🟢 Можливості — фокусуватися на дослідженнях у галузі world modeling і планування, де навіть невеликі покращення дають значний зростання RHAE; 🔴 Загрози — переоцінка поточних AI можливостей може призвести до розчарування інвесторів і скорочення фінансування.

🔴 ЗАГРОЗИ

Багато звертають увагу на низькі бали, проте не помічають, що метрика RHAE квадратично покарає навіть невеликі неefективності, тому реальний розрив у здатностях може бути меншим, ніж кажеться.

🎯 Чи підходить це вашому бізнесу?

Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.

Заповнити профіль · 30 секунд
Детальний розбір ↓

TL;DR

  • ARC-AGI-3 виявив, що люди проходять benchmark на 100%, а найкращі AI моделі — менше 0,4%.
  • Бенчмарк вимірює дослідження, моделювання світу, цільпоставлення та планування через 135 інтерактивних середовищ.
  • Через квадратичну метрику RHAE навіть невелика неefективність призводить до драматичного падіння балів.

Як це змінить ваш ринок?

Результати показують, що поточні генеративі моделі далеки від загального інтелекту, тому компанії, що інвестують в фундаментальні дослідження AI, можуть отримати конкурентну перевагу в довгостроковій перспективі. Однак короткострокові очікування швидкого прогресу можуть бути нереальними, що створює ризик розчарування акціонерів.

Визначення: ARC-AGI-3 — третя версія бенчмарка Abstract Reasoning Corpus, створена Франсуа Шолле для оцінки спроможності систем до абстрактного розуміння і планування у нових середовищах. Визначення: RHAE (Relative Human-Adjusted Efficiency) — квадратична метрика, що порівнює ефективність агента з людською, підношучи штраф за надмірну кількість дій.


💬 Часті запитання

Більшість сьогоднішніх моделей оптимізовані під шаблонні завдання та великі обсяги даних, а не під новотворче дослідження незнайомих правил.

🔒 Підтекст (Insider)

Бенчмарк створений Франсуа Шолле, автором Keras, і фінансується ARC Prize Foundation, що надає гранти за пробив AGI. Він показує, що поточні моделі далеки від справжнього розуміння, а інвестиції в фундаментальні дослідження можуть принести великі виграші в довгостроковій перспективі.

Такий розбір щоранку о 08:00

Персональний AI-дайджест для вашої галузі — щодня у Telegram

7 днів безкоштовно
ARC-AGI-3AGIbenchmarkAIperformanceRHAEmetricgeneralintelligence

Навчіть вашу команду будувати такі AI-автоматизації

За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.

Дізнатись більше → aiupskill.live