Qwen-3.7-Max обогнала GPT-5.5 и Opus 4.7 по цене и эффективности в тестах на обучение ботов

- Qwen-3.7-Max показала прирост качества бота для Tetris на +56%, в то время как Opus 4.7 — +28%, а GPT-5.5 — всего +7%
- Обучение на Qwen-3.7-Max обошлось в $1,32, в 9 раз дешевле, чем на Opus 4.7 ($12,15), и в 2 раза дешевле, чем на GPT-5.5 ($2,85)
- Модель поддерживает интеграцию с Hermes Agent и OpenCode, что позволяет использовать её как альтернативу GPT-5.5 или Opus 4.7
- Тесты проводились в условиях длительных агентных циклов, где Qwen-3.7-Max продемонстрировала наибольшую эффективность
- Стоимость выходных токенов на Qwen-3.7-Max в 3,3 раза ниже, чем у Opus 4.7, и в 4 раза — чем у GPT-5.5
- Входные токены на новой модели дешевле в 2 раза по сравнению с обеими конкурентами
Qwen-3.7-Max от Alibaba стала самой эффективной моделью для обучения агентов в тестах на создание и улучшение бота для игры Tetris. В ходе эксперимента, проведённого платформой atomic.chat , модель показала не только лучшие результаты по качеству, но и рекордно низкие затраты на обучение.
Тесты включали 10 итераций: модели могли анализировать собственный код, запускать бенчмарки и оптимизировать себя. Qwen-3.7-Max улучшила качество бота на 56%, в то время как Opus 4.7 — на 28%, а GPT-5.5 — всего на 7%. При этом стоимость обучения на Qwen составила $1,32 против $12,15 для Opus и $2,85 для GPT-5.5. Экономия прослеживается и в стоимости токенов: выходные токены на Qwen-3.7-Max дешевле в 3,3 раза по сравнению с Opus 4.7 и в 4 раза — с GPT-5.5.
Входные токены также обходятся в 2 раза дешевле у обеих конкурентных моделей. Особенно заметна разница в длительных агентных циклах, где Qwen-3.7-Max демонстрирует стабильное превосходство.
Модель совместима с популярными платформами Hermes Agent и OpenCode, что позволяет использовать её как прямую альтернативу GPT-5.5 или Opus 4.7. Эксперты отмечают, что такие результаты делают Qwen-3.7-Max привлекательной для задач, требующих длительного обучения и оптимизации, где стоимость и качество играют ключевую роль.
Qwen-3.7-Max подтвердила свою конкурентоспособность не только в качестве, но и в цене, что может изменить приоритеты разработчиков при выборе моделей для сложных агентных задач. Риски связаны с возможными ограничениями в специфических задачах, где GPT-5.5 или Opus показывают лучшие результаты. Следует отслеживать реакцию сообщества и возможные обновления от Alibaba, а также тесты на других задачах, чтобы понять полный потенциал модели.
Владимир Платонов
