Международная группа учёных представила ИИ‑модель для генерации белковых молекул на основе латентной диффузии

от автора

Учёные из Института AIRI и немецкого университета Constructor University представили совместную работу, посвящённую разработке ИИ‑модели для генерации искусственных белков DiMA. Специалисты отметили, что одна из практических задач новой модели — генерация белков с заранее определёнными характеристиками. Результаты исследования представлены на 42 Международной конференции по машинному обучению ICML 2025.

DiMA способна создавать не встречавшиеся ранее в природе белковые последовательности, точно соответствующие заданным исследователями критериям. Новые белки необходимы для разработки лекарственных препаратов, рассказали информационной службе Хабра в AIRI.

С точки зрения химии, белок представляет собой полимер: цепочку из аминокислот, которые в результате взаимодействий в пространстве сворачиваются в определённую структуру. Эту структуру можно представить как набор координат всех атомов в трёхмерном пространстве или в развёрнутом виде — как последовательность аминокислот, где каждую аминокислоту можно записать как отдельную «букву». В следствии чего формируется что‑то похожее на длинные слова или предложения, где каждая «буква» означает уникальные физико‑химические свойства. Последовательность этих символов определяет, как белок свернётся и какие функции и характеристики будет иметь.

Для создания искусственных белков учёные уже применяли различные языковые модели. Авторегрессионные модели работают (например, ChatGPT) — генерируют белковые последовательности побуквенно. Дискретные диффузионные модели (например, DALL‑E 3) создают всю последовательность («слово») сразу. Однако оба этих подхода требуют большого размера модели и огромного количества данных для обучения.

Специалисты из AIRI и Constructor University предложили принципиально новый подход. Новый подход основан на непрерывной Гауссовой диффузии. На первом этапе DiMA обучили генерировать разнообразные белки, которые всегда получаются биологически осмысленными и при этом не повторяют дословно известные природные последовательности. Это значит, что модель научилась понимать, как устроена вся «Вселенная белков», и может эту «Вселенную» достоверно имитировать.

На втором этапе исследователи дообучили систему генерировать белки только из определённых областей пространства, задавая соответствующие условия. Например, белки определённого семейства или белки с заданной трёхмерной структурой. Описанный подход позволяет не только расширять представления о теоретически возможных белковых конфигурациях, но и решать конкретные прикладные задачи в биотехнологиях и медицине.

Как объяснил ведущий научный сотрудник группы дизайна белков Центра ИИ‑разработки новых лекарственных препаратов Института AIRI Павел Страшнов, в естественных условиях существуют белки с одинаковой пространственной укладкой, но разными аминокислотными последовательностями, однако эволюция показала лишь те варианты, которые были обусловлены конкретными биологическими потребностями и ограничениями. По словам Страшнова, теоретически возможных вариантов белков существует астрономическое количество, поэтому наблюдаемые в природе белки представляют собой лишь каплю в океане возможностей.


ссылка на оригинал статьи https://habr.com/ru/articles/943994/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *