От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный

OpenAI выпустила GeneBench-Pro — бенчмарк, который проверяет не способность ИИ-агента запускать готовые пайплайны, а его исследовательское чутье: умение решить, отражает ли паттерн в данных биологию или шум, какой вопрос вообще можно задать по этим данным и когда результат готов к тому, чтобы на него опереться в реальном решении. Лучшая модель компании, GPT-5.6 Sol, прошла 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro.

Тест состоит из 129 задач в 10 областях и 21 поддисциплине — от популяционной генетики до фармакогеномики и онкогеномики. Каждая задача синтетическая: OpenAI заранее знает всю причинно-следственную структуру и сама генерирует данные, поэтому может проверять ответ детерминированно. 82 из 129 задач прогнали через внешних экспертов — аспирантов, постдоков и профессоров, — которые оценивали реалистичность и корректность целевого ответа.

Скачок результатов впечатляет: на первой версии GeneBench лучшая на тот момент модель GPT-5 не дотягивала и до 5%. Разница видна и в качестве решений — например, в задаче на фармакогеномический ответ со временем GPT-5.5 строила обычную модель Кокса, не учитывая обратную связь между лечением и сопутствующими факторами, а GPT-5.6 Sol сама перешла на маргинальную структурную модель с обратными вероятностными весами и грамотно исключила пациентов с уже начатым лечением. При этом конкуренты сильно отстают: Claude Opus 4.8 — 16%, Gemini 3.5 Flash — 8,1%, GLM 5.2 — 4,6%, DeepSeek V4 Pro — 2,4%, Gemini 3.1 Pro — 3,1%, Grok 4.3 — 1,5%.

Но даже у лидера это меньше трети задач. Авторы бенчмарка описывают типичный сбой так: модель в процессе анализа сама замечает тревожный сигнал в данных — например, технический артефакт или нарушение контроля качества, — но не доводит это наблюдение до итогового решения и продолжает работать по изначальному плану. Получается разрыв между «заметить» и «сделать выводы», который, по словам авторов, похож на разницу между опытным исследователем и новичком: первый меняет подход на лету, второй коллекционирует наблюдения, не связывая их с общей картиной.

«Задачи, которые я проверял, были бы непростыми даже для аспиранта без участия опытного научного руководителя, — говорит Александр Страдвик Янг, доцент кафедры генетики человека в UCLA. — Данные содержали технические огрехи и проблемы контроля качества, которые требовали вдумчивого анализа, а не просто применения готового метода к чистым и аккуратно подготовленным данным».

Сама OpenAI признает риск необъективности: фронтирные модели GPT использовались, чтобы оценивать и дорабатывать задачи бенчмарка еще на этапе разработки, а значит тест мог оказаться случайно заточен под их сильные стороны. Но, как утверждают авторы, конкурирующие модели в лучшем случае повторяли результат GPT того же поколения на момент его выхода, а чаще ощутимо отставали — так что дело, похоже, не только в подгонке теста.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1054166/