AI Upskill Media

🎯 Персональний дайджест Увійти

НейтральнаImpact 5/10🧪 Beta👤 Для всіх📺 Медіа і Контент 🎓 Освіта

Транскрибування аудіо з Gemma 4 за допомогою MLX

Simon Willison•1 день тому•0 переглядів

Саймон Віллісон показав транскрибування аудіофайлів на macOS за допомогою моделі Gemma 4 E2B з MLX та mlx-vlm. Наведений код та приклад демонструють здатність моделі перетворювати мову в текст, хоча й з незначними неточностями.

ВердиктНейтральнаImpact 5/10

🔬 Перші експерименти. Локальна альтернатива для транскрибування аудіо, але якість поки поступається хмарним API.

🟢 МОЖЛИВОСТІ

Безкоштовне транскрибування аудіо на macOS
Можливість локального запуску без передачі даних в хмару
Використання для прототипування та експериментів

🔴 ЗАГРОЗИ

Якість транскрибування нижча, ніж у хмарних API (помилки)
Потребує певних технічних навичок для налаштування
Обмежена підтримка та документація на початковому етапі

🎯 Чи підходить це вашому бізнесу?

Заповніть профіль компанії — і ми автоматично покажемо, чи варто вам це впроваджувати.

Заповнити профіль · 30 секунд

Детальний розбір ↓

TL;DR

•Gemma 4 E2B модель
•MLX та mlx-vlm бібліотеки
•Транскрибування аудіо на macOS
•Відкритий код
•Потребує Python 3.13

Як це змінить ваш ринок?

Медіа компанії зможуть швидко транскрибувати аудіо для створення субтитрів та текстових версій контенту, знімаючи блокер з ручної обробки аудіо.

Транскрибування — процес перетворення аудіо- або відеозапису в текст.

Для кого це і за яких умов

MacBook з Python 3.13, базові навички програмування, 15 хвилин на налаштування.

Альтернативи

	Gemma 4 + MLX	Google Cloud Speech-to-Text	AssemblyAI
Ціна	Безкоштовно	$0.024 / хвилина	$0.25 / хвилина
Де працює	Локально	Хмара	Хмара
Мін. вимоги	MacBook	API	API
Ключова різниця	Локально	Якість, масштабованість	Спеціалізація на аудіо

💬 Часті запитання

Поки що поступається хмарним API, але достатня для прототипування та експериментів.

Такий розбір щоранку о 08:00

Персональний AI-дайджест для вашої галузі — щодня у Telegram

7 днів безкоштовно

Джерела

Simon Willison — оригінал

Gemma4MLXspeech-to-texttranscriptionLLM

Навчіть вашу команду будувати такі AI-автоматизації

За 5 днів кожен співробітник побудує автоматизацію для своєї ділянки роботи.

Дізнатись більше → aiupskill.live