Чи можуть LLM переписати софт з нуля? Бенчмарк MirrorCode показує можливості та обмеження
Новий бенчмарк MirrorCode від Epoch AI та METR перевіряє здатність сучасних великих мовних моделей (LLM) відтворювати повноцінні застосунки без доступу до їхнього вихідного коду. Дослідження показало, що LLM успішно справляються з невеликими програмами, але поки що не можуть повністю переписати великі проєкти, хоча демонструють вражаючу автономність у розробці.
🔬 Вражаючий прогрес, але ще не продакшен-рівень. Для R&D команд та розробників, які експериментують з автономними агентами, це відкриває нові горизонти, але для критичних систем потрібна жорстка специфікація.
🟢 МОЖЛИВОСТІ
- Автоматизація розробки дрібних утиліт та компонентів, що економить до 90% часу інженерів.
- Прискорення прототипування та тестування нових ідей, дозволяючи швидко перевіряти гіпотези.
- Зниження витрат на розробку для чітко специфікованих завдань, де є еталон та тести.
🔴 ЗАГРОЗИ
- Високі витрати на обчислення для великих проєктів (до $2600 на один прогін), що робить їх недоцільними без чіткого ROI.
- Низька надійність у пограничних випадках (40% провалів Opus 4.7), що вимагає значного людського контролю.
- Ризик хардкоду та пропуску важливих фіч, якщо специфікація не є абсолютно вичерпною.
🎯 Чи підходить це вашому бізнесу?
Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.
Заповнити профіль · 30 секундTL;DR
- •Бенчмарк MirrorCode оцінює здатність LLM переписувати софт з нуля, маючи доступ лише до бінарника та документації.
- •Claude Opus 4.7 досяг 56% ідеальних рішень, переписавши 16 000-рядковий тулкіт за 14 годин і $251.
- •GPT-5.5 показав 44% успіху, будучи вдвічі дешевшим за Opus у вирішених задачах.
- •Моделі спотикаються на пограничних випадках, провалюючи до 40% прихованих тестів.
- •Виявлено сліди меморизації, але вони не корелюють з успіхом у вирішенні завдань.
Як це змінить ваш ринок?
Цей бенчмарк відкриває шлях до значної автоматизації розробки програмного забезпечення, особливо для рутинних або чітко визначених завдань. Компанії зможуть швидше виводити продукти на ринок, зменшуючи витрати на інженерію та звільняючи висококваліфікованих розробників для складніших, креативних завдань. Це може призвести до зміни структури команд розробки та прискорення інновацій у всіх індустріях, де є потреба у створенні або адаптації програмного забезпечення.
Визначення: MirrorCode — це бенчмарк, розроблений Epoch AI та METR, який оцінює здатність великих мовних моделей (LLM) відтворювати функціональність існуючих програм, маючи доступ лише до їхнього бінарного файлу та документації, без вихідного коду.
Для кого це і за яких умов
Ця технологія актуальна для R&D відділів великих технологічних компаній, стартапів, що експериментують з автономними агентами, та інженерних команд, які шукають шляхи оптимізації розробки. Для успішного застосування потрібна жорстка специфікація у вигляді еталонного бінарника та вичерпних тестів. Витрати можуть бути значними (до $2600 на один прогін для великих завдань), тому це виправдано для проєктів з високою цінністю або для оптимізації процесів, які вимагають тижнів ручної роботи. Мінімальний масштаб — будь-яка команда, що має ресурси та експертизу для роботи з передовими LLM.
Альтернативи
| Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro Preview | |
|---|---|---|---|
| Ціна | $251 за 16k рядків коду (приклад) | Вдвічі дешевше за Opus (для вирішених завдань) | Дані не розкриті |
| Де працює | Хмарний API | Хмарний API | Хмарний API |
| Мін. вимоги | Доступ до API, значний обчислювальний бюджет для складних завдань | Доступ до API, значний обчислювальний бюджет | Доступ до API |
| Ключова різниця | Найвища точність (56%), єдиний, хто закрив Large-задачі | Дешевше для вирішених завдань, але нижча точність (44%) | Найнижча точність (32%), частіше хардкодить |
💬 Часті запитання
Такий розбір щоранку о 08:00
Персональний AI-дайджест для вашої галузі — щодня у Telegram
Джерела
Machinelearning — оригіналНавчіть вашу команду будувати такі AI-автоматизації
За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.
Дізнатись більше → aiupskill.live