Журнал
Владимир Платонов · 30 марта, 2026 17:01

ARC-AGI-3: новый тест для ИИ обнулил результаты передовых моделей — люди справились на 100%

ARC-AGI-3: новый тест для ИИ обнулил результаты передовых моделей — люди справились на 100%
  • Франсуа Шолле представил ARC-AGI-3 — самый сложный тест для ИИ на сегодня, где люди решают все задания на 100%, а передовые модели — менее чем на 1%.
  • Тест включает 135 уникальных игровых сред без инструкций, правил или заданных целей. ИИ должен самостоятельно понять условия «победы» и адаптироваться в реальном времени.
  • Система оценки наказывает брутфорс: если человеку нужно 10 действий, а ИИ — 100, то его результат снижается до 1%. Масштабирование вычислений не решает проблему.
  • ARC-AGI-1 решён на 98% (Gemini), ARC-AGI-2 вырос с 3% до 77% за год, но ARC-AGI-3 обнуляет прогресс — результаты снова близки к нулю.
  • Призовой фонд в $2 млн на Kaggle обещает за решения с открытым исходным кодом. Бенчмарк был представлен на Y Combinator в дискуссии с Сэмом Альтманом.
  • Эксперты считают, что одного масштабирования недостаточно для достижения AGI. Разрыв между людьми и ИИ остаётся критически большим.

Франсуа Шолле, создатель теста ARC-AGI, представил на этой неделе новую версию бенчмарка, которая стала настоящим шоком для индустрии. В отличие от предыдущих версий, ARC-AGI-3 включает 135 уникальных игровых сред, разработанных вручную гейм-дизайнерами.

Каждая среда лишена инструкций, правил или чётких целей — ИИ должен самостоятельно понять, что считается «победой», и адаптироваться в реальном времени. Результаты оказались ошеломляющими: неподготовленные люди справились со всеми заданиями на 100%, тогда как передовые модели ИИ (Gemini 3.1 Pro, GPT 5.4, Opus 4.6) показали результат ниже 1%. Система оценки ARC-AGI-3 принципиально отличается от предыдущих версий. Она не только учитывает количество действий, но и штрафует за брутфорс.

Например, если человеку для решения задачи требуется 10 шагов, а ИИ тратит 100, его результат снижается до 1%.

Это означает, что масштабирование вычислительных мощностей не является решением — ИИ должен демонстрировать подлинное понимание и адаптивность, а не просто перебирать варианты. Сравнение с предыдущими версиями теста ещё более красноречиво. ARC-AGI-1 решён на 98% (Gemini показывает лучшие результаты), а ARC-AGI-2 вырос с 3% до 77% менее чем за год благодаря усилиям лабораторий, потративших миллионы на обучение моделей на предыдущих версиях.

Однако ARC-AGI-3 обнуляет весь этот прогресс: результаты снова близки к нулю. Бенчмарк был представлен публично на Y Combinator в рамках дискуссии между Шолле и Сэмом Альтманом, что подчеркнуло его значимость для отрасли.

Призовой фонд в $2 млн на платформе Kaggle обещает за лучшие решения с открытым исходным кодом. Эксперты отмечают, что ARC-AGI-3 не просто проверяет способности ИИ, а выявляет принципиальные ограничения современных моделей. «Одного масштабирования недостаточно, чтобы закрыть этот разрыв. До AGI нам ещё очень далеко», — заявил один из участников дискуссии.

Пока что единственные, кто могут похвастаться 100% результатом, — это люди, что ставит под вопрос текущие подходы к разработке искусственного интеллекта.

Что это значит для будущего? ARC-AGI-3 не просто новый тест — это предупреждение. Если ИИ не способен справляться с задачами, требующими гибкости и адаптивности, то путь к AGI остаётся крайне неопределённым. Пока что индустрия сосредоточена на масштабировании, но результаты ARC-AGI-3 заставляют задуматься: возможно, пришло время пересмотреть сами подходы к обучению и тестированию моделей.

<p>Результаты ARC-AGI-3 — это не просто цифры, а сигнал тревоги для всей индустрии. Да, мы видим впечатляющий прогресс в узких задачах, но когда речь заходит о настоящей адаптивности и понимании, ИИ всё ещё проигрывает даже неподготовленным людям. Это не про «плохие модели», а про фундаментальные ограничения текущих архитектур. ARC-AGI-3 не просто тест — это вызов, который заставляет задать вопрос: а что мы вообще считаем «интеллектом»? Если ИИ не может справиться с задачами, где человек интуитивно понимает контекст, то о каком прорыве к AGI можно говорить? Пока что единственный выход — радикально пересмотреть подходы к обучению и тестированию, а не гнаться за гигафлопсами.</p>

Владимир Платонов

Владимир Платонов

Автор и обозреватель

Владимир Платонов — автор и обозреватель финансовых рынков. Специализируется на Forex, брокерских сервисах и торговой инфраструктуре. В материалах анализирует условия торговли, исполнение ордеров и риски для частных трейдеров.

  • Темы: Forex, брокеры, торговые платформы, риск-менеджмент.
  • Подход: проверка фактов, сценарный анализ, прикладные рекомендации.
  • Форматы: обзоры, разборы компаний, комментарии по рынку.