ИИ Claude от Anthropic решает задачи по биоинформатике лучше экспертов в 29,6% случаев — но не всегда стабильно
Исследование Anthropic с использованием нового бенчмарка BioMysteryBench доказало, что модель Claude Mythos Preview способна решать сложные биоинформатические задачи, с которыми не справились даже эксперты. В 29,6% случаев ИИ превзошёл людей, но стабильность результатов оставляет.

- Anthropic представила новый бенчмарк BioMysteryBench для оценки ИИ в биоинформатике, где задачи скрыты в реальных датасетах.
- Claude Mythos Preview решил 29,6% задач, которые не смогли решить эксперты, но стабильность результатов оставляет вопросы.
- На 76 задачах, доступных экспертам, модель набрала 83%, но на 23 «human-difficult» задачах — только 29,6%.
- ИИ комбинирует методы, перепроверяет факты и помогает сужать пространство поиска, становясь «быстрым напарником» для учёных.
- Нестабильность результатов на самых сложных задачах объясняется удачными, но не всегда повторяемыми попытками.
- Новый подход к оценке ИИ в науке смещает фокус с «чистых» задач на работу с реальными, «грязными» данными.
Искусственный интеллект Claude от компании Anthropic впервые доказал, что может решать реальные задачи в биоинформатике лучше, чем эксперты. По данным нового исследования, опубликованного 1 мая 2026 года, модель Claude Mythos Preview справилась с 29,6% задач, которые не смогли решить даже высококвалифицированные биологи.
Эксперимент проводился на базе бенчмарка BioMysteryBench — набора из 99 задач, где правильные ответы скрыты внутри реальных биологических датасетов. В отличие от традиционных тестов, где вопросы подогнаны под очевидные решения, BioMysteryBench моделирует реальную научную работу. Эксперты получали доступ к стандартным биоинформатическим инструментам и базам данных, но даже при этом не смогли решить 23 задачи, которые были классифицированы как «human-difficult». На этом наборе Claude Mythos Preview показал результат в 29,6%, в то время как на 76 задачах, доступных экспертам, модель набрала 83%.
Однако исследователи отмечают, что стабильность результатов оставляет вопросы. При пяти повторных попытках на самых сложных задачах модель показывала не всегда одинаковые результаты, что может свидетельствовать о том, что часть побед была скорее удачным стечением обстоятельств, чем проявлением глубокого понимания.
Тем не менее, даже с учётом нестабильности, Claude начинает напоминать «быстрого исследовательского напарника»: он комбинирует различные методы, перепроверяет факты и помогает сужать пространство поиска, ускоряя работу учёных. Эксперты из Anthropic подчёркивают, что новый бенчмарк смещает фокус оценки ИИ с «чистых» задач на работу с реальными, «грязными» данными, которые часто встречаются в реальной научной практике. Это первый шаг к тому, чтобы ИИ стал полноценным помощником в исследовательской работе, а не просто инструментом для решения тривиальных задач.
По словам представителей компании, в будущем они планируют расширить набор задач и улучшить стабильность модели, чтобы сделать её более надёжным партнёром для учёных. Пока же результаты исследования показывают, что ИИ может не только конкурировать с экспертами, но и открывать новые горизонты в науке.
Результаты исследования Anthropic — это не просто ещё один шаг в развитии ИИ, а настоящий прорыв в том, как мы оцениваем возможности машинного интеллекта. BioMysteryBench показал, что ИИ способен решать задачи, которые недоступны даже экспертам, но при этом ставит важные вопросы о надёжности таких решений. Сегодня Claude Mythos Preview — это скорее «быстрый напарник», чем полноценный исследователь, но уже сейчас понятно, что будущее за такими системами. Они не заменят учёных, но смогут многократно ускорить их работу и открыть новые горизонты в науке. Главная задача сейчас — сделать такие модели более стабильными и предсказуемыми, чтобы они могли стать полноценными партнёрами в научных исслед
Владимир Платонов
