ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

OpenAI представила LifeSciBench — бенчмарк, который оценивает, насколько ИИ реально полезен в научной работе, а не просто отвечает на вопросы по биологии. Результаты вышли скорее отрезвляющими: даже флагманская GPT-Rosalind, ради которой бенчмарк и создавался, проходит лишь 36,1% задач против 25,7% у GPT-5.5. То есть почти две трети реальных исследовательских задач лучшая профильная модель все еще проваливает.

В отличие от привычных тестов на запоминание фактов, бенчмарк ставит задачи так, как их сформулировал бы ученый коллеге по лаборатории: разобрать неполные данные, согласовать противоречивые результаты, спланировать сложный эксперимент, оценить риски и решить, что делать дальше. Задачи для GPT-Rosalind и конкурентов писали 173 исследователя с PhD и опытом в фарме и биотехе — всего 750 задач, семь рабочих процессов и более 19 тысяч критериев в детальных рубриках. Больше половины задач требуют работать не только с текстом промпта, но и с приложенными файлами: графиками, таблицами, последовательностями, структурами.

Тут важна оговорка по цифрам. OpenAI приводит две метрики: Score — мягкую, с частичным зачетом за отдельные критерии (по ней у GPT-Rosalind около 63%), и pass rate — жесткую, где задача считается решенной только при выполнении рубрики на 70% (это и есть те самые 36,1%). Так что красивые 63% на сводном графике и «решает лишь треть задач» — про одну и ту же модель, просто измеренную по-разному.

Сильнее всего модели там, где нужно складно изложить выводы и связать доказательства с клиническими следствиями — в научной коммуникации и трансляции. Хуже всего — когда наука выходит за пределы текста. На задачах с приложенными артефактами pass rate GPT-Rosalind падает с 45,1% (только текст) до 28,1%. Там, где нужен точный численный ответ, — 14,8%; на последовательностях и структурах — 24%.

Чтобы к самому бенчмарку было меньше вопросов, OpenAI прогнала его через независимую экспертизу: 453 рецензента, не участвовавших в составлении задач, 97% из них с докторской степенью. Согласие по всем категориям — выше 96%. Это придает весомости и обратному выводу: если задачи и правда отражают реальную работу, то провал на них — не придирка к бенчмарку, а честный сигнал о состоянии моделей.

Без иронии не обошлось. В сводное сравнение, где GPT-Rosalind обходит GPT-5.5, Grok 4.3 и Gemini 3.1 Pro, не попала ни одна модель Claude от Anthropic — главного конкурента, который сам делает ставку на аккуратность и научные задачи. А ответы всех моделей оценивает… GPT-5.5: рубрики действительно писали внешние эксперты, но грейдером выступает модель самой OpenAI.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1048874/