Nous Research предложила метод ускорения обучения LLM на 2–3 раза без изменения архитектуры

Nous Research предложила метод TST, который ускоряет предобучение LLM в 2–3 раза без изменения архитектуры. Метод уже протестирован на моделях от 270 млн до 10 млрд параметров и показал лучшие результаты на ключевых тестах.
- Метод Token Superposition Training (TST) позволяет ускорить предобучение LLM в 2–3 раза при неизменном объеме вычислений
- На первых 20–40% обучения модель обрабатывает не отдельные токены, а батчи из 3–16 токенов, усредняя их векторные представления и игнорируя порядок
- Метод протестирован на моделях от 270 млн до 10 млрд параметров, включая MoE-модель, показав лучшие результаты на тестах HellaSwag, ARC и MMLU
- TST требует больше обучающих данных, иначе становится контрпродуктивным
- Готовые модели на инференсе не отличаются от обученных стандартным способом
- Оптимальный размер батча зависит от размера модели: для 270 млн параметров — 3–8 токенов, для 10 млрд — 16
Nous Research предложила метод, который ускоряет предобучение больших языковых моделей (LLM) в 2–3 раза без изменения архитектуры или объема вычислений. Исследователи назвали свой подход Token Superposition Training (TST) и опубликовали описание в препринте.
Метод уже показал результаты на моделях от 270 млн до 10 млрд параметров, включая эксперимент с Mixture-of-Experts (MoE)-моделью. Суть TST заключается в том, что на первых этапах обучения модель не предсказывает отдельные токены, а обрабатывает батчи из нескольких идущих подряд токенов. Их векторные представления усредняются на входе, а на выходе используется модифицированная функция потерь. При этом порядок токенов в батче не важен — модель учится только распознавать, какие токены вообще встречаются в данном фрагменте, а не их последовательность.
Размер батча — один из ключевых параметров: для модели с 270 млн параметров он составлял 3–8 токенов, а для 10-миллиардной — 16.
После первых 20–40% обучения модель переключается на стандартный режим предсказания следующего токена. По словам авторов, готовая модель на инференсе ничем не отличается от обученной традиционным способом — архитектура, оптимизатор, токенизатор и набор данных остаются прежними. В экспериментах TST показала лучшие результаты на тестах HellaSwag, ARC и MMLU, достигнув более низкого значения лосса примерно за 40% времени по сравнению с базовой моделью.
Однако у метода есть ограничение: TST расходует обучающие данные быстрее, так как модель перерабатывает больше текста за тот же объем вычислений. Если данных мало, метод может стать контрпродуктивным.
Авторы не раскрывают детали реализации, но отмечают, что TST не требует изменений в архитектуре или настройках модели. Это делает его потенциально совместимым с большинством современных подходов к предобучению.
Метод TST может стать важным шагом для ускорения разработки LLM, особенно для команд с ограниченными вычислительными ресурсами. Однако его эффективность напрямую зависит от объема данных: при дефиците текстов для обучения метод теряет смысл. Следует внимательно следить за дальнейшими публикациями Nous Research — возможно, они уточнят параметры и ограничения TST, что поможет оценить его реальную ценность для индустрии.
Владимир Платонов
