Яндекс улучшил генерацию русского текста в Alice AI ART: как модель научилась писать кириллицу без ошибок

Яндекс выпустил обновлённую версию Alice AI ART, где точность генерации русского текста выросла в три раза. Теперь модель корректно воспроизводит фразы из 7–9 слов, а доля искажений снизилась на треть.
- Яндекс выпустил обновлённую версию Alice AI ART, где точность генерации русского текста выросла в три раза по сравнению с предыдущей версией
- Проблема была в отсутствии дискретного представления о символах и низком качестве обучающих данных на кириллице
- Компания собрала собственный датасет из 30 млн пар «изображение-текст» с разметкой глифов и перешла на трансформерную архитектуру Diffusion Transformer
- Теперь модель корректно генерирует фразы из 7–9 слов, а доля искажений снизилась на треть, достигая уровня топовых решений
- Эксперты Яндекса рекомендуют использовать промпты с кавычками, заглавными буквами для сложных слов и разбиением длинных фраз
Alice AI ART от Яндекса теперь в три раза лучше справляется с генерацией русского текста на изображениях. Если раньше модель едва могла воспроизвести короткие фразы, то обновлённая версия корректно генерирует тексты из 7–9 слов в большинстве случаев.
Основная проблема генеративных моделей — отсутствие встроенного понимания символов как дискретных единиц. Диффузионные модели воспринимают буквы как произвольную текстуру, а с кириллицей ситуацию усугублял дисбаланс обучающих данных: в открытых датасетах её доля минимальна, а доступные примеры часто низкого качества. Чтобы исправить это, Яндекс собрал собственный датасет из 30 миллионов пар «изображение-текст» с разметкой глифов, а также использовал 100 тысяч примеров для файнтюнинга. Важным шагом стало изменение архитектуры: вместо UNet теперь применяется Diffusion Transformer, который лучше работает с пространственными связями между удалёнными участками картинки — критично для длинных надписей.
Кроме того, команда заменила текстовой энкодер на LLM для более точного понимания семантики запроса и обучала модель на русскоязычных промптах, а не на переводных с английского.
Это позволило повысить долю корректных генераций кириллического текста до 85%, что сравнимо с топовыми индустриальными решениями. Эксперты Яндекса также поделились приёмами промптинга для максимального качества: текст нужно заключать в кавычки, сложные слова писать заглавными, а длинные фразы разбивать на части с указанием расположения.
Обновление Alice AI ART демонстрирует, как целенаправленная работа с данными и архитектурой может решить давно известную проблему генерации текста в визуальных моделях. Однако остаётся вопрос о масштабируемости подхода: если Яндекс смог собрать качественный датасет для кириллицы, то для других языков с низкой представленностью в открытых источниках потребуются аналогичные усилия. Следует также следить, как изменения повлияют на скорость генерации и стоимость вычислений — эти параметры часто уступают в приоритете точности.
Владимир Платонов
