Чи можуть LLM переписати софт з нуля? Бенчмарк MirrorCode показує можливості та обмеження

Machinelearningблизько 2 годин тому0 переглядів

Новий бенчмарк MirrorCode від Epoch AI та METR перевіряє здатність сучасних великих мовних моделей (LLM) відтворювати повноцінні застосунки без доступу до їхнього вихідного коду. Дослідження показало, що LLM успішно справляються з невеликими програмами, але поки що не можуть повністю переписати великі проєкти, хоча демонструють вражаючу автономність у розробці.

ВердиктЗмішанаImpact 6/10

🔬 Вражаючий прогрес, але ще не продакшен-рівень. Для R&D команд та розробників, які експериментують з автономними агентами, це відкриває нові горизонти, але для критичних систем потрібна жорстка специфікація.

🟢 МОЖЛИВОСТІ

  • Автоматизація розробки дрібних утиліт та компонентів, що економить до 90% часу інженерів.
  • Прискорення прототипування та тестування нових ідей, дозволяючи швидко перевіряти гіпотези.
  • Зниження витрат на розробку для чітко специфікованих завдань, де є еталон та тести.

🔴 ЗАГРОЗИ

  • Високі витрати на обчислення для великих проєктів (до $2600 на один прогін), що робить їх недоцільними без чіткого ROI.
  • Низька надійність у пограничних випадках (40% провалів Opus 4.7), що вимагає значного людського контролю.
  • Ризик хардкоду та пропуску важливих фіч, якщо специфікація не є абсолютно вичерпною.

🎯 Чи підходить це вашому бізнесу?

Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.

Заповнити профіль · 30 секунд
Детальний розбір ↓

TL;DR

  • Бенчмарк MirrorCode оцінює здатність LLM переписувати софт з нуля, маючи доступ лише до бінарника та документації.
  • Claude Opus 4.7 досяг 56% ідеальних рішень, переписавши 16 000-рядковий тулкіт за 14 годин і $251.
  • GPT-5.5 показав 44% успіху, будучи вдвічі дешевшим за Opus у вирішених задачах.
  • Моделі спотикаються на пограничних випадках, провалюючи до 40% прихованих тестів.
  • Виявлено сліди меморизації, але вони не корелюють з успіхом у вирішенні завдань.

Як це змінить ваш ринок?

Цей бенчмарк відкриває шлях до значної автоматизації розробки програмного забезпечення, особливо для рутинних або чітко визначених завдань. Компанії зможуть швидше виводити продукти на ринок, зменшуючи витрати на інженерію та звільняючи висококваліфікованих розробників для складніших, креативних завдань. Це може призвести до зміни структури команд розробки та прискорення інновацій у всіх індустріях, де є потреба у створенні або адаптації програмного забезпечення.

Визначення: MirrorCode — це бенчмарк, розроблений Epoch AI та METR, який оцінює здатність великих мовних моделей (LLM) відтворювати функціональність існуючих програм, маючи доступ лише до їхнього бінарного файлу та документації, без вихідного коду.

Для кого це і за яких умов

Ця технологія актуальна для R&D відділів великих технологічних компаній, стартапів, що експериментують з автономними агентами, та інженерних команд, які шукають шляхи оптимізації розробки. Для успішного застосування потрібна жорстка специфікація у вигляді еталонного бінарника та вичерпних тестів. Витрати можуть бути значними (до $2600 на один прогін для великих завдань), тому це виправдано для проєктів з високою цінністю або для оптимізації процесів, які вимагають тижнів ручної роботи. Мінімальний масштаб — будь-яка команда, що має ресурси та експертизу для роботи з передовими LLM.

Альтернативи

Claude Opus 4.7GPT-5.5Gemini 3.1 Pro Preview
Ціна$251 за 16k рядків коду (приклад)Вдвічі дешевше за Opus (для вирішених завдань)Дані не розкриті
Де працюєХмарний APIХмарний APIХмарний API
Мін. вимогиДоступ до API, значний обчислювальний бюджет для складних завданьДоступ до API, значний обчислювальний бюджетДоступ до API
Ключова різницяНайвища точність (56%), єдиний, хто закрив Large-задачіДешевше для вирішених завдань, але нижча точність (44%)Найнижча точність (32%), частіше хардкодить

💬 Часті запитання

Ні, поки що LLM не можуть повністю замінити розробників. Вони ефективні для чітко визначених завдань з жорсткою специфікацією та тестами, але для великих, складних проєктів з нечіткими вимогами або без повного набору тестів людський інтелект залишається незамінним.

Такий розбір щоранку о 08:00

Персональний AI-дайджест для вашої галузі — щодня у Telegram

7 днів безкоштовно
LLMSoftwareDevelopmentCodeGenerationBenchmarkMirrorCodeClaudeOpusGPT-5.5Gemini3.1ProAutonomousAgentsAIEngineering

Навчіть вашу команду будувати такі AI-автоматизації

За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.

Дізнатись більше → aiupskill.live