Наскільки дорогим є використання LLM для переписування софту?

Вартість може сильно варіюватися. Для великих завдань, як показано в бенчмарку, один прогін може коштувати до $2600 і займати до 19 днів. Для менших утиліт витрати значно нижчі, але все одно вимагають обчислювальних ресурсів.

Які основні обмеження сучасних LLM у цьому завданні?

Основними обмеженнями є труднощі з пограничними випадками, схильність до хардкоду, пропуск фіч, які є в документації, але не в тестах, а також загальна нездатність до повної автономії на дійсно великих кодових базах без чіткого сигналу зворотного зв'язку.

Чи є ризик, що LLM просто копіюють існуючий код?

Бенчмарк виявив сліди меморизації (моделі могли бачити опенсорсний код під час навчання). Однак, моделі успішно вирішували незнайомі програми та провалювали відомі, що свідчить про те, що меморизація не є єдиним фактором успіху і не є приводом для скепсису щодо їхніх здібностей до генерації нового коду.

Чи можуть LLM переписати софт з нуля? Бенчмарк MirrorCode показує можливості та обмеження

TL;DR

•Бенчмарк MirrorCode оцінює здатність LLM переписувати софт з нуля, маючи доступ лише до бінарника та документації.
•Claude Opus 4.7 досяг 56% ідеальних рішень, переписавши 16 000-рядковий тулкіт за 14 годин і $251.
•GPT-5.5 показав 44% успіху, будучи вдвічі дешевшим за Opus у вирішених задачах.
•Моделі спотикаються на пограничних випадках, провалюючи до 40% прихованих тестів.
•Виявлено сліди меморизації, але вони не корелюють з успіхом у вирішенні завдань.

Як це змінить ваш ринок?

Цей бенчмарк відкриває шлях до значної автоматизації розробки програмного забезпечення, особливо для рутинних або чітко визначених завдань. Компанії зможуть швидше виводити продукти на ринок, зменшуючи витрати на інженерію та звільняючи висококваліфікованих розробників для складніших, креативних завдань. Це може призвести до зміни структури команд розробки та прискорення інновацій у всіх індустріях, де є потреба у створенні або адаптації програмного забезпечення.

Визначення: MirrorCode — це бенчмарк, розроблений Epoch AI та METR, який оцінює здатність великих мовних моделей (LLM) відтворювати функціональність існуючих програм, маючи доступ лише до їхнього бінарного файлу та документації, без вихідного коду.

Для кого це і за яких умов

Ця технологія актуальна для R&D відділів великих технологічних компаній, стартапів, що експериментують з автономними агентами, та інженерних команд, які шукають шляхи оптимізації розробки. Для успішного застосування потрібна жорстка специфікація у вигляді еталонного бінарника та вичерпних тестів. Витрати можуть бути значними (до $2600 на один прогін для великих завдань), тому це виправдано для проєктів з високою цінністю або для оптимізації процесів, які вимагають тижнів ручної роботи. Мінімальний масштаб — будь-яка команда, що має ресурси та експертизу для роботи з передовими LLM.

Альтернативи

	Claude Opus 4.7	GPT-5.5	Gemini 3.1 Pro Preview
Ціна	$251 за 16k рядків коду (приклад)	Вдвічі дешевше за Opus (для вирішених завдань)	Дані не розкриті
Де працює	Хмарний API	Хмарний API	Хмарний API
Мін. вимоги	Доступ до API, значний обчислювальний бюджет для складних завдань	Доступ до API, значний обчислювальний бюджет	Доступ до API
Ключова різниця	Найвища точність (56%), єдиний, хто закрив Large-задачі	Дешевше для вирішених завдань, але нижча точність (44%)	Найнижча точність (32%), частіше хардкодить

💬 Часті запитання

Ні, поки що LLM не можуть повністю замінити розробників. Вони ефективні для чітко визначених завдань з жорсткою специфікацією та тестами, але для великих, складних проєктів з нечіткими вимогами або без повного набору тестів людський інтелект залишається незамінним.

Чи можуть LLM переписати софт з нуля? Бенчмарк MirrorCode показує можливості та обмеження

🟢 МОЖЛИВОСТІ

🔴 ЗАГРОЗИ

🎯 Чи підходить це вашому бізнесу?

TL;DR

Як це змінить ваш ринок?

Для кого це і за яких умов

Альтернативи

💬 Часті запитання

Такий розбір щоранку о 08:00

Джерела

Навчіть вашу команду будувати такі AI-автоматизації