Zyphra выпустила промежуточную версию модели ZAYA1-74B-Preview с расширенным контекстом

Владимир Платонов · 10 мая, 2026 10:03
ИИZyphra выпустила промежуточную версию модели ZAYA1-74B-Preview с расширенным контекстом

Компания Zyphra выпустила промежуточную версию модели ZAYA1-74B-Preview с расширенным контекстом до 256k токенов и новыми архитектурными решениями. Модель уже прошла этапы претрейн и мидтрейн, но ещё не прошла финальное RL-постобучение. Доступна под лицензией Apache 2.0.

  • Zyphra выпустила чекпоинт ZAYA1-74B-Preview всего через два дня после релиза модели ZAYA1-8B, что подчеркивает темпы развития компании
  • Модель ZAYA1-74B-Preview прошла этапы претрейн и мидтрейн, но ещё не прошла RL-постобучение и инстракт-тунинг, что объясняет текущие показатели
  • В архитектуре модели применено комбинированное внимание: стандартное CCA и скользящее окно размером 4K, что сокращает KV-кеш почти вдвое без потери качества на длинном контексте
  • Контекстное окно модели расширено поэтапно до 256k токенов, а обучение включало 15T токенов в претрейне и 3T в мидрейне с акцентом на математику, код и агентные задачи
  • Zyphra добавила больше агентного материала в корпус для ZAYA1-74B-Preview, что улучшило первые результаты на τ-bench, но финальные показатели появятся только после агентного RL
  • Модель распространяется под лицензией Apache 2.0 и находится в открытом доступе

Компания Zyphra анонсировала предварительную версию своей новой модели ZAYA1-74B-Preview всего через два дня после релиза ZAYA1-8B. Новая модель уже прошла этапы претрейн и мидтрейн, но ещё не прошла финальное RL-постобучение, что объясняет текущие показатели её работы.

По данным разработчиков, ZAYA1-74B-Preview демонстрирует улучшенные метрики pass@4, приближаясь к лидерам рынка, тогда как показатель pass@1 пока отстаёт. В архитектуре модели применено комбинированное внимание: каждый второй слой использует внимание со скользящим окном размером 4K, что позволяет сократить KV-кеш почти вдвое без потерь на длинном контексте. Для этого в слоях со скользящим окном сохранили исходное основание RoPE, а в глобальных слоях — растянули. Контекстное окно модели расширено поэтапно: от 32k до 128k и затем до 256k токенов.

Обучение модели включало 15T токенов в претрейне (две фазы: общие веб-данные и специализированные на математике, коде и науке) и 3T токенов в мидрейне (расширение контекста, ввод reasoning-трасс и фокус на агентных задачах).

Zyphra добавила больше агентного материала в корпус для ZAYA1-74B-Preview, что улучшило первые результаты на бенчмарке τ-bench. Однако разработчики отмечают, что показатель pass@k плохо отражает многошаговые сценарии, где важнее следование инструкциям, удержание состояния и устойчивость к промежуточным ошибкам. Эти способности, по их словам, появятся только после агентного RL.

Обучение старшей версии модели ZAYA1 также велось исключительно на оборудовании AMD. Финальная версия ZAYA1-74B, как ожидается, будет выпущена в ближайшие недели после завершения RL-постобучения.

Модель ZAYA1-74B-Preview распространяется под лицензией Apache 2.0 и доступна для тестирования и использования.

Выход промежуточной версии ZAYA1-74B-Preview демонстрирует стратегию Zyphra, направленную на быстрое итерационное развитие моделей с акцентом на расширение контекста и агентные задачи. Однако текущие результаты показывают, что ключевые улучшения появятся только после финального RL-постобучения. Риски связаны с тем, насколько эффективно удастся масштабировать агентные способности, учитывая слабые результаты предыдущей версии на этом направлении. Следует следить за динамикой метрик на бенчмарках, особенно на многошаговых сценариях, где текущие показатели pass@k могут оказаться обманчивыми.

Владимир Платонов

Владимир Платонов — автор и обозреватель финансовых рынков. Специализируется на Forex, брокерских сервисах и торговой инфраструктуре. В материалах анализирует условия торговли, исполнение ордеров и риски для частных трейдеров.