Транскрибування аудіо з Gemma 4 за допомогою MLX
Саймон Віллісон показав транскрибування аудіофайлів на macOS за допомогою моделі Gemma 4 E2B з MLX та mlx-vlm. Наведений код та приклад демонструють здатність моделі перетворювати мову в текст, хоча й з незначними неточностями.
🔬 Перші експерименти. Локальна альтернатива для транскрибування аудіо, але якість поки поступається хмарним API.
🟢 МОЖЛИВОСТІ
- Безкоштовне транскрибування аудіо на macOS
- Можливість локального запуску без передачі даних в хмару
- Використання для прототипування та експериментів
🔴 ЗАГРОЗИ
- Якість транскрибування нижча, ніж у хмарних API (помилки)
- Потребує певних технічних навичок для налаштування
- Обмежена підтримка та документація на початковому етапі
🎯 Чи підходить це вашому бізнесу?
Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.
Заповнити профіль · 30 секундTL;DR
- •Gemma 4 E2B модель
- •MLX та mlx-vlm бібліотеки
- •Транскрибування аудіо на macOS
- •Відкритий код
- •Потребує Python 3.13
Як це змінить ваш ринок?
Медіа компанії зможуть швидко транскрибувати аудіо для створення субтитрів та текстових версій контенту, знімаючи блокер з ручної обробки аудіо.
Транскрибування — процес перетворення аудіо- або відеозапису в текст.
Для кого це і за яких умов
MacBook з Python 3.13, базові навички програмування, 15 хвилин на налаштування.
Альтернативи
| Gemma 4 + MLX | Google Cloud Speech-to-Text | AssemblyAI | |
|---|---|---|---|
| Ціна | Безкоштовно | $0.024 / хвилина | $0.25 / хвилина |
| Де працює | Локально | Хмара | Хмара |
| Мін. вимоги | MacBook | API | API |
| Ключова різниця | Локально | Якість, масштабованість | Спеціалізація на аудіо |
💬 Часті запитання
Такий розбір щоранку о 08:00
Персональний AI-дайджест для вашої галузі — щодня у Telegram
Джерела
Simon Willison — оригіналНавчіть вашу команду будувати такі AI-автоматизації
За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.
Дізнатись більше → aiupskill.live