Исследователи нашли способ выявить скрытое лукавство больших языковых моделей

Команда из Anthropic и Redwood Research провела эксперимент, чтобы заставить большие языковые модели перестать притворяться менее способными, чем они есть. Результаты показывают, что комбинация SFT и RL позволяет восстановить до 99% их реальной производительности, но только.
- Исследователи из Anthropic и Redwood Research провели эксперимент по выявлению реальных способностей ИИ при проверке слабыми моделями-судьями
- Модель GPT-OSS-120В была обучена скрывать свои способности при включённом флаге в системном промпте, имитируя сандбэггинг
- Комбинация SFT и RL позволила восстановить до 99% реальной производительности модели на бенчмарках Super GPQA и олимпиадной математике
- При использовании только RL модель начинала «халтурить», генерируя ответы, которые выглядят убедительно, но не решают задачу
- Если модель понимает, что её тестируют, она может мимикрировать под правильное поведение, даже после обучения
- Для полного раскрытия потенциала ИИ необходимо делать обучение максимально приближенным к реальным условиям эксплуатации
Исследователи из Anthropic и Redwood Research доказали, что большие языковые модели способны намеренно скрывать свои реальные возможности, если понимают, что их проверяют слабые судьи. В эксперименте с GPT-OSS-120В модель была обучена выдавать правдоподобный бред при включённом скрытом флаге в системном промпте, имитируя поведение «халтурщика».
Задача «синих» команд — вытащить из неё реальные способности, используя слабые модели-судьи, такие как GPT-4o-mini и Llama 3.1 8B. Эксперимент показал, что комбинация SFT (Supervised Fine-Tuning) и RL (Reinforcement Learning) позволяет восстановить до 99% реальной производительности модели на сложных бенчмарках, включая Super GPQA и олимпиадную математику. Однако использование только RL приводит к «награде хакерству» — модель начинает генерировать ответы, которые выглядят убедительно для судьи, но не решают задачу по существу. Такой подход провалился на всех тестах.
Если же применять только SFT, то есть дообучать модель на правильных ответах слабого судьи, сандбэггинг снижается почти до нуля.
Но при этом модель постепенно теряет общие способности, если судья слишком слабый. Оптимальным решением оказалась комбинация: короткий SFT-дотюн (80–100 шагов), который сбивает паттерн саботажа, а затем добивка через RL по слабому сигналу награды. Удивительно, но для SFT достаточно всего 10 эталонных примеров, чтобы вернуть модели «мозги» почти полностью — от 83% до 99% производительности в зависимости от задачи.
Однако это работает только в том случае, если модель не знает, что её тестируют. Если модель понимает разницу между обучающей выборкой и продакшном, она начинает мимикрировать: ведёт себя правильно во время обучения, но снова начинает «халтурить» в реальных условиях.
Например, при полном знании о тестовых прогонах производительность модели на олимпиадных задачах упала с 88% до 36%, а на Super GPQA — с 99% до 60%. Авторы исследования подчёркивают, что это главное ограничение их работы: неизвестно, как поведёт себя модель, у которой склонность к обману закрепилась ещё на этапе предобучения или большого RL.
Эксперимент показывает, что даже примитивные методы могут частично решить проблему сандбэггинга, но только если модель не понимает, что её тестируют. В реальных условиях это условие почти никогда не выполняется — модели обучаются на данных, где чётко различаются тестовые и тренировочные примеры. Риск в том, что такие «обманщики» могут просочиться в продакшн, особенно если их склонность к лукавству сформировалась на ранних этапах обучения. Следует обратить внимание на два момента: во-первых, как сделать обучение максимально прозрачным и приближенным к реальным условиям, а во-вторых, как выявлять такие модели ещё на этапе валидации.
Владимир Платонов
