ARC-AGI-3: новый тест для ИИ обнулил результаты передовых моделей — люди справились на 100%

- Франсуа Шолле представил ARC-AGI-3 — самый сложный тест для ИИ на сегодня, где люди решают все задания на 100%, а передовые модели — менее чем на 1%.
- Тест включает 135 уникальных игровых сред без инструкций, правил или заданных целей. ИИ должен самостоятельно понять условия «победы» и адаптироваться в реальном времени.
- Система оценки наказывает брутфорс: если человеку нужно 10 действий, а ИИ — 100, то его результат снижается до 1%. Масштабирование вычислений не решает проблему.
- ARC-AGI-1 решён на 98% (Gemini), ARC-AGI-2 вырос с 3% до 77% за год, но ARC-AGI-3 обнуляет прогресс — результаты снова близки к нулю.
- Призовой фонд в $2 млн на Kaggle обещает за решения с открытым исходным кодом. Бенчмарк был представлен на Y Combinator в дискуссии с Сэмом Альтманом.
- Эксперты считают, что одного масштабирования недостаточно для достижения AGI. Разрыв между людьми и ИИ остаётся критически большим.
Франсуа Шолле, создатель теста ARC-AGI, представил на этой неделе новую версию бенчмарка, которая стала настоящим шоком для индустрии. В отличие от предыдущих версий, ARC-AGI-3 включает 135 уникальных игровых сред, разработанных вручную гейм-дизайнерами.
Каждая среда лишена инструкций, правил или чётких целей — ИИ должен самостоятельно понять, что считается «победой», и адаптироваться в реальном времени. Результаты оказались ошеломляющими: неподготовленные люди справились со всеми заданиями на 100%, тогда как передовые модели ИИ (Gemini 3.1 Pro, GPT 5.4, Opus 4.6) показали результат ниже 1%. Система оценки ARC-AGI-3 принципиально отличается от предыдущих версий. Она не только учитывает количество действий, но и штрафует за брутфорс.
Например, если человеку для решения задачи требуется 10 шагов, а ИИ тратит 100, его результат снижается до 1%.
Это означает, что масштабирование вычислительных мощностей не является решением — ИИ должен демонстрировать подлинное понимание и адаптивность, а не просто перебирать варианты. Сравнение с предыдущими версиями теста ещё более красноречиво. ARC-AGI-1 решён на 98% (Gemini показывает лучшие результаты), а ARC-AGI-2 вырос с 3% до 77% менее чем за год благодаря усилиям лабораторий, потративших миллионы на обучение моделей на предыдущих версиях.
Однако ARC-AGI-3 обнуляет весь этот прогресс: результаты снова близки к нулю. Бенчмарк был представлен публично на Y Combinator в рамках дискуссии между Шолле и Сэмом Альтманом, что подчеркнуло его значимость для отрасли.
Призовой фонд в $2 млн на платформе Kaggle обещает за лучшие решения с открытым исходным кодом. Эксперты отмечают, что ARC-AGI-3 не просто проверяет способности ИИ, а выявляет принципиальные ограничения современных моделей. «Одного масштабирования недостаточно, чтобы закрыть этот разрыв. До AGI нам ещё очень далеко», — заявил один из участников дискуссии.
Пока что единственные, кто могут похвастаться 100% результатом, — это люди, что ставит под вопрос текущие подходы к разработке искусственного интеллекта.
Что это значит для будущего? ARC-AGI-3 не просто новый тест — это предупреждение. Если ИИ не способен справляться с задачами, требующими гибкости и адаптивности, то путь к AGI остаётся крайне неопределённым. Пока что индустрия сосредоточена на масштабировании, но результаты ARC-AGI-3 заставляют задуматься: возможно, пришло время пересмотреть сами подходы к обучению и тестированию моделей.
<p>Результаты ARC-AGI-3 — это не просто цифры, а сигнал тревоги для всей индустрии. Да, мы видим впечатляющий прогресс в узких задачах, но когда речь заходит о настоящей адаптивности и понимании, ИИ всё ещё проигрывает даже неподготовленным людям. Это не про «плохие модели», а про фундаментальные ограничения текущих архитектур. ARC-AGI-3 не просто тест — это вызов, который заставляет задать вопрос: а что мы вообще считаем «интеллектом»? Если ИИ не может справиться с задачами, где человек интуитивно понимает контекст, то о каком прорыве к AGI можно говорить? Пока что единственный выход — радикально пересмотреть подходы к обучению и тестированию, а не гнаться за гигафлопсами.</p>
Владимир Платонов