На яких моделях протестовано TST?

Метод протестовано на моделях розміром від 270 мільйонів до 10 мільярдів параметрів.

Чи впливає TST на якість моделі після навчання?

За словами Nous Research, готова модель на інференсі нічим не відрізняється від навченої стандартним способом.

•Метод Token Superposition Training (TST) прискорює претренування LLM у 2-3 рази.
•TST обробляє пакети токенів замість окремих токенів на початковому етапі навчання.
•Метод протестовано на моделях розміром від 270 мільйонів до 10 мільярдів параметрів.
•TST досягає нижчого значення лосса за 40% часу.
•Розмір батча росте разом з розміром моделі: від 3-8 токенів для 270 млн параметрів до 16 для 10 млрд.

Видавці контенту зможуть швидше та дешевше створювати власні LLM для генерації текстів, знімаючи блокер високої вартості навчання.

Для команд, які мають великі обсяги даних та обчислювальні ресурси для претренування LLM. Потрібна команда ML-інженерів.

	Token Superposition Training	Звичайне претренування
Ціна	Вартість обчислень	Вартість обчислень
Де працює	Локально/Хмара	Локально/Хмара
Мін. вимоги	Великий обсяг даних	Великий обсяг даних
Ключова різниця	Швидкість навчання	Стандартний підхід

💬 Часті запитання

TST вимагає великої кількості навчальних даних, інакше метод може бути контрпродуктивним.