Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

Компания Anthropic выпустила разбор о том, почему ИИ-агенты уже стали сильными программистами, но в биологии буксуют. Ответ авторов: проблема не в уме агента, а в данных, по которым он движется. Они сравнивают это с ездой на машине по старинному городу, построенному до эпохи автомобилей, — улочки красивые, но узкие и кривые. Программная инфраструктура изначально создавалась под «машины» и хорошо подходит агентам: версионирование кода, документированные API, пакетные менеджеры. А биоинформатика осталась лоскутным набором баз данных со своими форматами, идентификаторами и одноразовыми скриптами.

Узкое место, по мнению авторов, — не способность агента рассуждать, а отсутствие надежных детерминистических инструментов для запросов к биоданным. Пример из исследования: база NCBI Virus, откуда вирусологи берут последовательности для диагностики и слежения за вспышками. Сейчас это особенно остро — в ДРК идет вспышка Эболы, вызванная вирусом Бундибугио, и к концу мая ВОЗ насчитала более 1000 подтвержденных и подозреваемых случаев и свыше 200 смертей. Чтобы понять, насколько новый вирус отличается от прежних и сработают ли против него существующие тесты и лекарства, нужно сравнить его геномы с историческими. А первый шаг этого анализа — ручные клики по фильтрам в устаревшем веб-интерфейсе, который агенту дается с трудом.

Похожую боль недавно описывал Андрей Карпати. В докладе о софте в эпоху ИИ он рассказал, как вайб-кодил веб-приложение: сам код оказался самой легкой частью, а на подключение авторизации, платежей и деплоя ушла неделя кликанья по браузерным дашбордам. Документация все время отправляла «перейдите по ссылке, нажмите на выпадающее меню». Вывод Карпати — так быть не должно, надо строить для агентов. Авторы Anthropic называют это «налогом на клики» и отмечают, что биологи живут с ним давно: логика фильтрации NCBI Virus существует только внутри веб-интерфейса — это раздражает людей и катастрофично для агентов.

Чтобы измерить масштаб проблемы, исследователи собрали бенчмарк VirBench — 120 запросов на поиск вирусных последовательностей по 40 патогенам с вручную выверенными правильными ответами. Затем прогнали через него научных агентов на базе Claude Sonnet 4, Claude Opus 4.7, Biomni, Edison Analysis, GPT-5.2-pro и GPT-5.5. Средняя точность разошлась от 16,9% до 91,3% — при том что для сборки датасета планка фактически 100%, ведь один пропущенный геном может исказить вывод. Хуже того, агенты были нестабильны: на один и тот же запрос про Эболу Sonnet 4 в первом прогоне вернул 106 последовательностей вместо нужных 266, во втором — 15, в третьем — всего 5.

Решением стал детерминистический инструмент gget virus, который команда сделала вместе с сотрудниками NCBI. Он берет на себя всю грязную работу: согласует несколько разных API (REST, Datasets, E-utilities), правильно разбивает большие выборки на части и повторяет логику фильтров из веб-интерфейса. Когда агентам дали к нему доступ, точность выросла выше 90% у всех, а у GPT-5.5 достигла 99,7%; разброс между прогонами почти исчез. Главный вывод авторов: детерминистический слой сделал выбор модели куда менее важным — дешевая модель с правильным инструментом догоняет дорогой флагман.

Сами авторы признают: модели улучшаются быстро, и легко представить близкое будущее, когда инструменты вроде gget virus станут не нужны — агенты научатся сами разбираться в запутанных базах. Но даже тогда, считают они, гонять агента через один и тот же хаос каждый раз — слишком дорого, медленно и трудно проверяемо. Поэтому главный урок не про конкретный инструмент: биологические базы данных пора проектировать с расчетом на то, что одними из основных их пользователей станут агенты.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1045202/