Разработан бенчмарк GeomMotif из 57 задач для выявления ошибок ИИ-моделей при проектировании геометрии белковых структур

Учёные из Института AIRI, НИУ ВШЭ и Constructor University разработали бенчмарк GeomMotif для проверки способности искусственного интеллекта правильно проектировать структуру белковых молекул. Как сообщили информационной службе Хабра в пресс‑службе AIRI, новый инструмент состоит из 57 задач и помогает определить, где именно модель допускает ошибки при работе с геометрией белков. Работа была представлена на конференции ICLR в Рио‑де‑Жанейро. Данные для бенчмаркинга, скрипты для построения задач и код для оценки доступны на GitHub и HuggingFace.

Одна из ключевых задач в дизайне белковых молекул заключается в том, чтобы достроить целый белок вокруг заранее заданного структурного фрагмента и при этом сохранить его точную трёхмерную форму. До сих пор у научного сообщества не было инструмента, который позволял бы отдельно проверять именно эту способность моделей. Главное отличие GeomMotif от существующих подходов состоит в том, что фрагменты выбираются не по биологической функции, а по геометрическим и физико‑химическим свойствам. Такой подход важен, поскольку геометрия является центральным звеном между последовательностью белка и его функцией. Ещё в 60-е годы 20-ого века учёный Анфинсен показал, что последовательность аминокислот определяет пространственную структуру белка, а структура определяет его функцию. В 1972 году он получил за это Нобелевскую премию.

Для компьютерного проектирования белков геометрия критична. Отклонение всего на один ангстрем может свести вероятность успеха эксперимента практически к нулю. Поэтому сначала важно научиться точно оценивать и контролировать геометрию, и только потом переходить к более сложным вопросам, связанным с функцией.

Учёные использовали экспериментальные структуры белковых молекул высокого качества из базы Protein Data Bank для создания GeomMotif. Специалисты удалили дубликаты и дополнительно проверили, что каждая выбранная структура надёжно воспроизводится вычислительными методами. Это было нужно для того, чтобы все задачи в бенчмарке были не только реалистичными, но и заведомо решаемыми. Если модель не справляется, проблема однозначно связана с её ограничениями.

Мотивы для задач подбирали так, чтобы охватить как можно больше реальных сценариев проектирования белковых молекул. Исследователи учитывали форму, размер, тип вторичной структуры, степень заглублённости, заряд и гидрофобность. Это позволяет полноценно оценивать сильные и слабые стороны моделей.

Всего в GeomMotif представлено 57 задач, выстроенных по нарастающей сложности. Модель искусственного интеллекта получает один или два мотива, содержащие в сумме от одного до семи непрерывных структурных фрагментов. Вокруг них модель должна достроить полноценные белковые молекулы и при этом не нарушить их пространственное расположение. Такой подход позволяет понять не только общий уровень модели, но и то, на каком этапе она начинает ошибаться. Один непрерывный фрагмент представляет собой сравнительно простую задачу. Несколько разрозненных фрагментов делают её значительно сложнее. Два мотива, разнесённые в пространстве, требуют от модели учитывать дальние взаимосвязи внутри будущего белка.

Для оценки возможностей современных генеративных моделей исследователи протестировали десять систем двух типов. К первому относятся модели, работающие напрямую с трёхмерной структурой белка. Это RFdiffusion, Genie2, La-Proteina, Protpardelle-1c, FrameFlow и RFdiffusion2. Ко второму относятся модели, генерирующие аминокислотную последовательность, пространственная форма которой затем предсказывается отдельно. В эту группу вошли ESM3 и две версии DPLM на 650 млн и 3 млрд параметров.

Лидерами оказались структурные модели Genie2, La-Proteina и RFdiffusion. Модели, работающие с последовательностями, уступили им более чем на порядок. Это указывает на принципиальные ограничения такого подхода при необходимости сохранять дальние геометрические связи.

Тестирование показало, что существующие бенчмарки с функциональными участками лидирующие модели проходят почти полностью. На GeomMotif лучшая модель набирает лишь 40 баллов из 100. Это говорит о серьёзных ограничениях в геометрической точности. Самыми трудными для всех моделей оказались задачи с двумя участками и большим числом фрагментов. Результаты зависят от биофизических свойств мотива и его окружения. Поэтому у разных моделей проявились разные сильные и слабые стороны.

Ведущий научный сотрудник группы дизайна белков Центра разработки новых лекарственных препаратов на основе искусственного интеллекта Института AIRI Павел Страшнов отметил, что в дальнейшем исследователи планируют ускорить систему проверки результатов и расширить бенчмарк на новые классы генеративных белковых моделей. В первую очередь речь идёт о полноатомных моделях, которые учитывают все атомы белка, а не только его осто

ссылка на оригинал статьи https://habr.com/ru/articles/1035290/