Китайский учёный предложил революционный способ оценки параметров закрытых ИИ-моделей: бенчмарк на основе знаний выявил GPT-5.5 с 9,7 трлн параметров

Владимир Платонов · 30 апреля, 2026 13:43

Новый бенчмарк на основе 1400 вопросов о фактических знаниях позволяет оценить количество параметров в закрытых ИИ-моделях с точностью R²=0,917. Исследование показало, что GPT-5.5 может содержать до 9,7 трлн параметров, а модели Claude и Gemini — от 1,2 до 5,3 трлн.

ИИКитайский учёный предложил революционный способ оценки параметров закрытых ИИ-моделей: бенчмарк на основе знаний выявил GPT-5.5 с 9,7 трлн параметров
  • Китайский исследователь предложил новый метод оценки параметров закрытых ИИ-моделей через анализ их фактических знаний.
  • Бенчмарк включает 1400 вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне специализированных.
  • Учёный выявил лог-линейную зависимость между количеством параметров и результатами бенчмарка (R²=0,917) на основе калибровки 89 открытых моделей.
  • Оценки для закрытых моделей: GPT-5.5 ≈ 9,7 трлн параметров, Claude Opus 4.6 ≈ 5,3 трлн, Claude Sonnet 4.6 ≈ 1,7 трлн, Gemini 2.5 Pro ≈ 1,2 трлн.
  • Метод учитывает ограничения моделей по безопасности, поэтому оценки могут быть заниженными.
  • Исследование опубликовано на arXiv 28 апреля 2026 года.

Китайский исследователь из Пекинского университета представил на архиве arXiv принципиально новый способ оценки количества параметров в закрытых ИИ-моделях. Вместо традиционного анализа экономики инференса, который даёт погрешность до 200%, учёный предложил использовать бенчмарк на основе фактических знаний.

Метод основан на том, что способность модели хранить факты ограничена энтропией Шеннона и не поддаётся дистилляции, в отличие от рассуждений. Бенчмарк включает 1400 вопросов, распределённых по 7 уровням редкости — от широко известных фактов до узкоспециализированных. Исследователь откалибровал метод на 89 открытых моделях с известным числом параметров и выявил чёткую лог-линейную зависимость между результатами теста и размером модели (коэффициент детерминации R²=0,917). Проецируя закрытые модели на калибровочную кривую, учёный получил оценки: GPT-5.5 содержит около 9,7 трлн параметров, Claude Opus 4.6 — 5,3 трлн, Claude Sonnet 4.6 — 1,7 трлн, а Gemini 2.5 Pro — 1,2 трлн.

Исследователь отмечает, что эти цифры могут быть нижними границами из-за настроек безопасности, ограничивающих ответы моделей на некоторые вопросы.

Новый метод открывает возможности для независимой оценки масштабов закрытых моделей, что ранее было невозможно из-за отсутствия доступа к их архитектуре. В то же время точность метода остаётся ограниченной из-за субъективности вопросов и вариативности ответов. Тем не менее, результаты вызывают интерес в научном сообществе и могут стимулировать дальнейшие исследования в области бенчмаркинга ИИ.

Исследование опубликовано на arXiv 28 апреля 2026 года и доступно для свободного скачивания.

Новый метод оценки параметров закрытых ИИ-моделей через анализ фактических знаний выглядит многообещающе, но требует дальнейшей валидации. Пока рано говорить о точности оценок, особенно для моделей с закрытой архитектурой, где производители могут целенаправленно ограничивать доступ к знаниям. Тем не менее, сам подход заслуживает внимания, так как открывает новые возможности для независимого анализа рынка ИИ. Важно, чтобы подобные бенчмарки не стали инструментом манипуляции, а использовались для объективной оценки прогресса в области искусственного интеллекта.

Владимир Платонов

Владимир Платонов — автор и обозреватель финансовых рынков. Специализируется на Forex, брокерских сервисах и торговой инфраструктуре. В материалах анализирует условия торговли, исполнение ордеров и риски для частных трейдеров.