Главная / Новости ИИ / Китайский учёный предложил революционный способ оценки параметров закрытых ИИ-моделей: бенчмарк на основе знаний выявил GPT-5.5 с 9,7 трлн параметров

Китайский учёный предложил революционный способ оценки параметров закрытых ИИ-моделей: бенчмарк на основе знаний выявил GPT-5.5 с 9,7 трлн параметров

Василий Платонов · 30 апреля, 2026 13:43

Новый бенчмарк на основе 1400 вопросов о фактических знаниях позволяет оценить количество параметров в закрытых ИИ-моделях с точностью R²=0,917. Исследование показало, что GPT-5.5 может содержать до 9,7 трлн параметров, а модели Claude и Gemini — от 1,2 до 5,3 трлн.

Китайский учёный предложил революционный способ оценки параметров закрытых ИИ-моделей: бенчмарк на основе знаний выявил GPT-5.5 с 9,7 трлн параметров

Китайский исследователь предложил новый метод оценки параметров закрытых ИИ-моделей через анализ их фактических знаний.
Бенчмарк включает 1400 вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне специализированных.
Учёный выявил лог-линейную зависимость между количеством параметров и результатами бенчмарка (R²=0,917) на основе калибровки 89 открытых моделей.
Оценки для закрытых моделей: GPT-5.5 ≈ 9,7 трлн параметров, Claude Opus 4.6 ≈ 5,3 трлн, Claude Sonnet 4.6 ≈ 1,7 трлн, Gemini 2.5 Pro ≈ 1,2 трлн.
Метод учитывает ограничения моделей по безопасности, поэтому оценки могут быть заниженными.
Исследование опубликовано на arXiv 28 апреля 2026 года.

Китайский исследователь из Пекинского университета представил на архиве arXiv принципиально новый способ оценки количества параметров в закрытых ИИ-моделях. Вместо традиционного анализа экономики инференса, который даёт погрешность до 200%, учёный предложил использовать бенчмарк на основе фактических знаний.

Метод основан на том, что способность модели хранить факты ограничена энтропией Шеннона и не поддаётся дистилляции, в отличие от рассуждений. Бенчмарк включает 1400 вопросов, распределённых по 7 уровням редкости — от широко известных фактов до узкоспециализированных. Исследователь откалибровал метод на 89 открытых моделях с известным числом параметров и выявил чёткую лог-линейную зависимость между результатами теста и размером модели (коэффициент детерминации R²=0,917). Проецируя закрытые модели на калибровочную кривую, учёный получил оценки: GPT-5.5 содержит около 9,7 трлн параметров, Claude Opus 4.6 — 5,3 трлн, Claude Sonnet 4.6 — 1,7 трлн, а Gemini 2.5 Pro — 1,2 трлн.

Исследователь отмечает, что эти цифры могут быть нижними границами из-за настроек безопасности, ограничивающих ответы моделей на некоторые вопросы.

Новый метод открывает возможности для независимой оценки масштабов закрытых моделей, что ранее было невозможно из-за отсутствия доступа к их архитектуре. В то же время точность метода остаётся ограниченной из-за субъективности вопросов и вариативности ответов. Тем не менее, результаты вызывают интерес в научном сообществе и могут стимулировать дальнейшие исследования в области бенчмаркинга ИИ.

Исследование опубликовано на arXiv 28 апреля 2026 года и доступно для свободного скачивания.

Новый метод оценки параметров закрытых ИИ-моделей через анализ фактических знаний выглядит многообещающе, но требует дальнейшей валидации. Пока рано говорить о точности оценок, особенно для моделей с закрытой архитектурой, где производители могут целенаправленно ограничивать доступ к знаниям. Тем не менее, сам подход заслуживает внимания, так как открывает новые возможности для независимого анализа рынка ИИ. Важно, чтобы подобные бенчмарки не стали инструментом манипуляции, а использовались для объективной оценки прогресса в области искусственного интеллекта.
Василий Платонов

Василий Платонов

автор и обозреватель финансовых рынков. Специализируется на Forex, брокерских сервисах и торговой инфраструктуре. В материалах анализирует условия торговли, исполнение ордеров и риски для частных трейдеров.