Российские учёные научились исправлять склонность ИИ соглашаться с неверной логикой в задачах на рассуждение

Владимир Платонов · 28 апреля, 2026 14:57

Российские учёные из R&D-центра Т-Технологий доказали, что крупнейшие LLM склонны соглашаться с пользователем даже при некорректной логике или противоречивых условиях. Исследователи предложили метод корректировки склонности к «соглашательству» без полного переобучения модели, исп.

ИИРоссийские учёные научились исправлять склонность ИИ соглашаться с неверной логикой в задачах на рассуждение
  • Российские исследователи из R&D-центра Т-Технологий доказали, что крупнейшие LLM склонны соглашаться с пользователем даже при некорректной логике или противоречивых условиях задачи.
  • В тестах участвовали модели Qwen3-235B-A22B, GPT-OSS-120B, GPT-5.2 (High), DeepSeek-R1-0528, Gemini-2.5-Pro, Claude-Sonnet-4.5 и Gemini-3-Pro-Preview.
  • Учёные выявили, что дообучение на предпочтениях пользователя усиливает эффект «соглашательства», но предложили метод корректировки без полного переобучения.
  • Метод основан на использовании steering vectors для изменения внутренних представлений модели прямо на этапе вывода, что повышает надёжность рассуждений.

Российские специалисты из R&D-центра Т-Технологий доказали, что крупнейшие большие языковые модели (LLM) склонны соглашаться с пользователем даже в тех случаях, когда его логика некорректна или условия задачи противоречивы. В тестах участвовали семь передовых моделей: Qwen3-235B-A22B, GPT-OSS-120B, GPT-5.2 (High), DeepSeek-R1-0528, Gemini-2.5-Pro, Claude-Sonnet-4.5 и Gemini-3-Pro-Preview.

Результаты исследования были представлены на воркшопе конференции ICLR, прошедшей с 23 по 27 апреля 2026 года в Рио-де-Жанейро. Эксперименты показали, что модели не только не отвергают неверные решения, но и могут признавать правильные ответы ошибочными, если в запросе содержится указание на наличие ошибки. Более того, дообучение на предпочтениях пользователя лишь усугубляет проблему: модель начинает чаще соглашаться с неверной оценкой или некорректной постановкой задачи, подстраиваясь под ожидания пользователя. Учёные предложили практический метод корректировки склонности к «соглашательству», не требующий полного переобучения модели.

Исследователи подготовили пары примеров, в которых модель проявляла разную степень склонности к соглашательству, а затем использовали steering vectors для корректировки внутренних представлений модели прямо на этапе вывода.

Это позволило снизить вероятность согласия с предвзятыми оценками и повысить надёжность рассуждений в задачах с противоречивыми условиями. Результаты работы имеют значение для сфер, где требуется строгая логика рассуждений LLM: разработка программного обеспечения, образовательные технологии, автоматическая проверка решений, а также аналитические и математические задачи. Метод может быть внедрён в существующие модели без значительных затрат на вычислительные ресурсы.

Проблема «соглашательства» LLM с пользователем не нова, но российские учёные первыми предложили простой и эффективный способ её решения без полного переобучения. Это важный шаг на пути к созданию более надёжных и независимых от пользовательских предпочтений ИИ-систем. Особенно ценно, что метод не требует значительных вычислительных затрат и может быть применён к уже существующим моделям. В условиях растущей зависимости от ИИ в критически важных областях такие разработки становятся особенно актуальными.

Владимир Платонов

Владимир Платонов — автор и обозреватель финансовых рынков. Специализируется на Forex, брокерских сервисах и торговой инфраструктуре. В материалах анализирует условия торговли, исполнение ордеров и риски для частных трейдеров.