GPT 5.5 впервые полностью решила задачу в бенчмарке ProgramBench

GPT 5.5 впервые полностью решила задачу cmatrix в бенчмарке ProgramBench, установив новый рекорд. Модель показала 0,5% полностью решённых задач и 13,5% почти решённых решений, обойдя конкурентов по ключевым метрикам.
- GPT 5.5 в режимах high и xhigh впервые в истории бенчмарка ProgramBench полностью прошла задачу cmatrix, ранее недостижимую для публичных моделей
- Совокупно число почти решённых задач у GPT 5.5 достигло 26 — это рекорд рейтинга, тогда как другие модели (Claude Opus 4.7, Opus 4.6) не преодолели планку даже частичных решений
- В режиме medium GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6, но при включении расширенного рассуждения её результат заметно улучшается
- Стоимость запуска GPT 5.5 (high) составила $3,17 при 34 обращениях к API, а в режиме xhigh — $4,84 при 40 обращениях. Для сравнения, аналогичный запуск Claude Opus 4.7 (xhigh) обошёлся в $10,74, но содержал 19 ошибок в
- GPT 5.5 выбрала разные языки для одной и той же задачи: high-режим использовал C с ANSI escape-последовательностями, а xhigh-режим — Python. Claude Opus 4.7 (xhigh) применила библиотеку ncurses, но это не дало
Команда ProgramBench сообщила, что модель GPT 5.5 в расширенных режимах high и xhigh впервые в истории теста полностью прошла задачу cmatrix, ранее недоступную для публичных моделей. Это первый случай, когда модель довела задание до конца, тогда как ранее ни одна из участниц рейтинга не справлялась с задачей полностью.
Результат GPT 5.5 стал рекордом: совокупно число почти решённых задач достигло 26, что значительно превышает показатели других моделей. В публичном рейтинга ProgramBench GPT 5.5 (xhigh) занимает первое место с 0,5% полностью решённых задач и 13,5% почти решённых (проходящих свыше 95% поведенческих тестов). В режиме high модель показывает аналогичный результат по полностью решённым задачам, но лишь 5% почти решённых. Для сравнения, Claude Opus 4.7 (xhigh) и Opus 4.6 демонстрируют 0% полностью решённых задач и не превышают 4,5% почти решённых решений.
Интересно, что в стандартном режиме medium GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6, но при включении расширенного режима рассуждения её результат заметно улучшается.
Это указывает на зависимость качества выполнения задач от глубины анализа и дополнительных вычислительных ресурсов. Разница в подходах между режимами также подчёркивает важность гибкости в настройках моделей для достижения максимальной производительности. Стоимость запуска GPT 5.5 (high) составила $3,17 при 34 обращениях к API, а в режиме xhigh — $4,84 при 40 обращениях.
Для сравнения, аналогичный запуск Claude Opus 4.7 (xhigh) обошёлся в $10,74, но содержал 19 ошибок в поведенческих тестах. Авторы бенчмарка связывают провалы Claude с двумя багами в коде: чувствительностью парсера цветов к регистру и неверным кодом возврата.
При этом GPT 5.5 выбрала разные языки для одной и той же задачи: high-режим использовал C с ANSI escape-последовательностями, а xhigh-режим — Python. Claude Opus 4.7 (xhigh) применила библиотеку ncurses, но это не дало преимуществ в итоговом результате. Эксперты отмечают, что успех GPT 5.5 в ProgramBench может сигнализировать о новом уровне зрелости ИИ-моделей в области программирования. Однако пока рано говорить о повсеместной применимости таких решений, так как тесты бенчмарка остаются узкоспециализированными.
Тем не менее, рекордные показатели модели открывают возможности для дальнейших исследований в области автоматизации программирования и создания более сложных систем.
Рекорд GPT 5.5 в ProgramBench важен, но не стоит переоценивать его масштаб. Бенчмарк тестирует узкий набор задач, и даже полное решение одной из них не гарантирует универсальности модели. Стоит обратить внимание на два момента: во-первых, разницу в стоимости между режимами — расширенные режимы требуют значительных ресурсов, что может ограничить их применение на практике. Во-вторых, подходы разных моделей к решению одной и той же задачи (например, выбор языков программирования) показывают, что универсального решения пока нет. За GPT 5.5 стоит следить, но пока рано говорить о её доминировании на рынке ИИ-инструментов.
Владимир Платонов
