Критик AI Гері Маркус похвалив модель Claude від Anthropic
Гері Маркус, відомий критик AI, визнав значний прогрес у моделі Claude Mythos від Anthropic. Модель встановила рекорд на бенчмарку METR, продемонструвавши здатність автономно працювати над складними завданнями понад 16 годин з 50% успіху.
🚀 Помітний прогрес. Claude стає серйозним конкурентом GPT-4 для задач, де важлива автономність і час роботи.
🟢 МОЖЛИВОСТІ
- Автономна робота над складними задачами до 16 годин
- Покращена здатність до самоперевірки та використання інструментів
- Можливість створення повноцінних автономних агентів
🔴 ЗАГРОЗИ
- Нестабільність результатів: успішне вирішення задачі не гарантує повторення
- Потреба у подальшому вдосконаленні надійності
- Високі вимоги до обчислювальних ресурсів для великих моделей
🎯 Чи підходить це вашому бізнесу?
Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.
Заповнити профіль · 30 секундTL;DR
- •Claude Mythos встановила рекорд на бенчмарку METR.
- •Модель здатна автономно працювати над складними задачами понад 16 годин.
- •Гэри Маркус, відомий критик AI, визнав прогрес моделі.
- •Claude використовує агентні системи для самоперевірки та використання інструментів.
- •Модель все ще потребує покращення надійності.
Як це змінить ваш ринок?
У сфері кібербезпеки, Claude може автоматизувати виявлення та реагування на загрози, знімаючи блокер з нестачі кваліфікованих кадрів. Це дозволить швидше реагувати на інциденти та зменшити ризики.
METR (Multimodal Evaluation of Task Reasoning): Бенчмарк для оцінки здатності AI до автономного вирішення складних задач, таких як кодування, ML та кібербезпека.
Для кого це і за яких умов
7B: MacBook 16GB, без IT-команди, 15 хв. 27B: GPU $2,000+ або хмара ~$0.5/год, IT-спеціаліст, 1-2 дні.
Альтернативи
| Claude | GPT-4 | Gemini | |
|---|---|---|---|
| Ціна | Дані не розкриті | $0.03 / 1K токенів | $0.015 / 1K токенів |
| Де працює | Хмара, локально | Хмара | Хмара |
| Мін. вимоги | Залежить від розміру моделі | API | API |
| Ключова різниця | Автономність, тривалість роботи | Широкий спектр задач | Інтеграція з Google-сервісами |
💬 Часті запитання
Такий розбір щоранку о 08:00
Персональний AI-дайджест для вашої галузі — щодня у Telegram
Навчіть вашу команду будувати такі AI-автоматизації
За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.
Дізнатись більше → aiupskill.live