За что дали Нобелевскую премию по химии: да, снова за AI-модель

Нобелевскую премию по химии получили Джон Джампер и Демис Хассабис из Google DeepMind, а также биоинформатик Дэвид Бейкер:

Джон Джампер и Демис Хассабис научились предсказывать структуру белков с помощью AI-модели AlphaFold 2.
Дэвид Бейкер преуспел же в другой области — создании новых видов белков (компьютерный дизайн белков). Можно сказать, что Бейкер придумывает последовательность аминокислот для создания искусственных белков.

Учёные смогли решить проблему 50-летней давности — предсказать сложную структуру белка по аминокислотной последовательности — долгие годы наука считала, что это невозможно сделать. Так же учёным казалось, что невозможно создавать новые искусственные белки, которых раньше не было в природе.

Роль белков, и почему они сложны в изучении

Прежде чем перейти к работе учёных, нужно определиться с объектом их исследований — белками. Что это такое? Какова их роль? Почему они сложны в изучении?

Что такое белки и аминокислоты

Белки состоят из аминокислот. Цепочка аминокислот сворачивается в трёхмерную структуру, так белок получает свою биологическую функцию. Источник — Белки состоят из аминокислот. Цепочка аминокислот сворачивается в трёхмерную структуру, так белок получает свою биологическую функцию. *Источник*

Белки управляют всеми химическими реакциям в основе жизни. Поэтому иногда их называют «химическими инструментами жизни». Это крупные биологические молекулы, которые состоят из цепочки аминокислотных остатков (в определённых соединениях и форме), выполняющие тысячи функций внутри каждой клетки живого организма.

По сути, аминокислоты — это строительные блоки жизни. В зависимости от формы, которую примет комбинация аминокислот, изменится биологическая функция белка — будет ли он ферментом, переносчиком веществ или, к примеру, регулятором. Также по форме белка видно, как он взаимодействует с другими белками.

Понимание и контроль фолдинга белков — пожалуй, самая важная задача для фундаментальной и прикладной наук. Многие болезни начинаются с нарушения работы белков. Например, вирус SARS-CoV-2 целится сразу в несколько мишеней в организме. Если их изучить и вовремя заблокировать, можно помешать размножаться вирусу. Проблема в том, что узнать форму белка довольно сложно — нужны длительные и дорогие исследования. Подробнее об этом поговорим в следующем разделе.

Какие формы образует белок: иерархическая структура и проблемы её определения

Примерно так выглядит иерархическая структура белка. Источник — *Примерно так выглядит иерархическая структура белка.* *Источник*

У белков четыре уровня организации. Связь между последовательностью и трёхмерной структурной была доказана и постулируется в одной из ключевых работ в этой области — догме Анфинсена.

Первичная структура. Простейший вид структуры представляет цепочку из остатков 20 аминокислот, соединенных в определённой последовательности — её ещё называют полипептидной. Такую последовательность можно записать в алфавитном порядке — трёхбуквенном или однобуквенном. Понятно, что аминокислот больше двадцати, но большинство белков могут обходиться этим числом.

Следующие уровни уже определяют форму белки, точнее его пространственное строение.

Вторичная структура. В ней последовательная цепь аминокислот образует устойчивые блоки и сворачивается в спираль за счёт водородных связей. Распространенные блоки этой структуры — α-спирали и β-листы.

Третичная структура. Финальная форма белка, которую он принимает после фолдинга (сворачивания/укладки) за счёт ковалентных, водородных, ионных связей и других взаимодействий. Форма белка может напоминать множество разнообразных фигур. Как правило, белки принимают глобулярную или фибрилярную форму. Первые похожи на сферы и хорошо растворяются в воде (пример: яичный белок), а вторые — нити и волокна, они нерастворимы в воде (пример: волосы и мускулы).

Четвертичная структура. У некоторых белков образуется четвертая форма. Она формируется из комплекса нескольких молекул с третичной структурой.

Золотой стандарт определения структуры белка

Определить структуру белка можно экспериментально — методом рентгеноструктурной кристаллографии. Метод был изобретён в 1950-е годы, и его признают условным «золотым стандартом» в этой области.

Хотя метод считается точным, он довольно затратный — на определение структуры одного белка уйдут месяцы и потребуется дорогое оборудование.

Плюс, процесс кристаллографии может столкнуться с проблемами уже на первом этапе получения кристаллов, ведь для кристаллизации белка нужны определённые условия. Например, могут задействовать даже астронавтов, чтобы в невесомости уберечь растущие кристаллы.

Зато постепенно копятся решённые структуры белков. В 1971 году Nature публикует заметку о том, что начинается сбор специальной базы данных PDB, в которой такие структуры белков будут храниться. До развития интернета PDB существовал в виде записей на лентах, а к 2000-м годам стал доступен широкой аудитории. С того момента объёмы базы стали расти экспоненциально: сегодня число решённых структур приближается к 200 тыс.

Рост числа экспериментально определённых структур белков в PDB. Источник — *Рост числа экспериментально определённых структур белков в PDB.* *Источник*

AlphaFold 2, как и многие другие нейросети, занимающиеся предсказанием строения структуры белка, были созданы на основе данных из PDB.

Как CASP стимулировали создание новых решений

Проблема предсказания структуры белков — настолько важная и сложная задача, что для неё создается отдельный конкурс — в 1994 году появляется Critical Assessment of protein Structure Prediction (CASP). Это соревнование предсказания структуры белка — учёные используют разные алгоритмы, чтобы лучше предсказать структуру белков разных уровней сложности и превзойти в точности своих конкурентов.

Результаты моделей сравнивают с результатам кристаллографов в лаборатории, которые были получены экспериментальным методом. Оценка по шкале GDT (global distance test) от 0 до 100 показывает, насколько сильно моделируемая структура сходится с экспериментальными данными.

Показатели победителей CASP в разные годы. Источник — *Показатели победителей CASP в разные годы.* *Источник*

До 2018 года показатели точности победителей CASP не могли превысить 40%. Прорыв в этой области совершила команда DeepMind с AI-моделью AlphaFold 1, показав результат в 60%. В следующем конкурсе CASP 14 команда DeepMind заняла первое место, увеличив точность предсказаний до 92% с помощью AlphaFold 2. По словам одного из создателей конкурса CASP, такой результат можно назвать успехом и близким с данными молекулярной биологии, потому что на этом уровне уже сложно сказать, кто прав — модель или биолог-учёный — дело только в погрешности.

Дэвид Бейкер: Компьютерный дизайн белков благодаря алгоритмам Rosetta

Бейкер работал над созданием новых белков, которых не существует в природе. В 1998 году Дэвид Бейкер и его команда приняли участие в CASP 3 с алгоритмом Rosetta и до 2003 года продолжали его дорабатывать.

Алгоритм Rosetta помогает исследователям конструировать белки с определёнными формами и функциями, начиная с желаемой трёхмерной структуры и работая в обратном направлении для вычисления соответствующей последовательности аминокислот. Для оценки структуры в базе Rosetta использовался оптимизированный метод Монте-Карло.

Настоящий прорыв ждал Бейкера с командой, когда им удалось создать новый искусственный белок Top7 — он мог самостоятельно укладываться в трёхмерную структуру, при этом не был похож ни на один природный белок. Но и не имел каких-то полезных функций.

Искусственный белок Top7. Источник — *Искусственный белок Top7.* *Источник*

Отголоски Rosetta в будущем

В 2005 году был создан проект Rosetta@home, который помогал обойти проблему нехватки вычислительных мощностей для создания трёхмерной структуры белков.

В 2008 году из Rosetta@home вырос проект Foldit. Это головоломка, в которой игроки соревнуются в сворачивании белков. По самым успешным проектам учёные пишут академические работы.

Демис Хассабис в заметке MIT рассказывал, что играл в Foldit. Можно сказать, что косвенно через эту головоломку DeepMind пришел к задачам по фолдингу белка и разработке AlphaFold. В целом, если вы хотите тоже попробовать себя в роли учёного, нужно только время и желание.

Влияние компьютерного дизайна белков на мировое сообщество

Этот прорыв позволил учёным создать белки и лекарства с новыми свойствами, в том числе для терапевтических (белки, способные ингибировать белок-шип COVID-19), и устойчивых целей (экологические белки, обнаруживающие опиоиды).

Такие белки получил Бейкер с помощью Rosetta: новые наноматериалы, вакцины и ингибиторы вирусных частиц, сенсоры, способные замечать в окружающей среде опасные вещества. Источник — Такие белки получил Бейкер с помощью Rosetta: новые наноматериалы, вакцины и ингибиторы вирусных частиц, сенсоры, способные замечать в окружающей среде опасные вещества. *Источник*

Джон Джампер и Демис Хассабис: Предсказание структуры белков с помощью AI

AlphaFold 1: DeepMind удалось совершить прорыв в предсказании структуры белков

AlphaFold 1 был обучен на нескольких общедоступных датасетах:

Protein Data Bank (PDB) — база данных, содержащая трёхмерные структуры и аминокислотные последовательности практически всех белков, структура которых была определена человечеством.
Другая база данных, UniProt, содержит аминокислотные последовательности (без структур) ещё 200 млн белков.

AlphaFold 1 основана на свёрточной нейросети (convolutional neural network, Convnets, CNN). Такие нейросети используют для распознавания изображений с помощью компьютерного зрения. AlphaFold 1 применяет те же стратегии, что и CNN для идентификации изображений. В результате работы AlphaFold 1 создаётся множественное выравнивание последовательностей (Multiple sequence alignment, MSA) — двухмерная матрица (строка – вид организма, столбец – код аминокислоты), из которой можно извлекать иерархические паттерны.

Пример матрицы MSA. Источник — *Пример матрицы MSA.* *Источник*

Именно эти паттерны удалось понять команде Google DeepMind и победить на CASP 13, достигнув точности почти в 60%, но этого было недостаточно — учёные могли использовать нейросеть в работе только при точности исследований больше 90%.

AlphaFold 2: роль архитектуры Transformer в предсказании структуры белков

Схема работы AlphaFold 2. Источник — *Схема работы AlphaFold 2.* *Источник*

От CNN к Transformer

В 2020 году AI-модель пересобрали и усовершенствовали. Вместо CNN в AlphaFold 2 использована передовая архитектура трансформеров (Transformer) — на ней, например, основаны GPT-модели и BERT. Одним из ключевых нововведений AlphaFold 2 стал механизм внимания, который позволяет AI-модели сфокусироваться на наиболее значимых частях последовательности и структуры белка при составлении предсказаний. Механизм внимания позволяет системе лучше улавливать взаимодействия между различными частями белка, которые имеют решающее значение для его фолдинга и функционирования.

Как работает AlphaFold 2

AlphaFold 2 обучается на базе известных белковых структур и последовательностей и использует эти данные для создания своих предсказаний:

Принимает последовательность белков;
Извлекает характеристики из последовательности, включая информацию о расстояниях между парами аминокислот и углах между связями;
Моделирует процесс фолдинга, предсказывая наиболее вероятную 3D-структуру белка, а также расстояния и углы между всеми парами аминокислот в белке;
Уточняет первоначальное предсказание структуры, корректируя углы и расстояния между аминокислотами, сравнивает предположения с реальными данными по другим белкам;
Выстраивает 3D-структуру белка в виде набора координат для каждой аминокислоты в цепи.

Основная работа AlphaFold 2 находится двух модулях — Evoformer и Structure Model

Схематическое представление работы эвоформера и структурного модуля. Источник — *Схематическое представление работы эвоформера и структурного модуля.* *Источник*

Эвоформер работает параллельно с двумя последовательностями: получает множественное выравнивание (MSA) и парное представление (pair representation) на входе, а на выходе возвращает их усовершенствованную версию.

Структурный модуль AlphaFold 2 получает из Evoformer обновлённое парное представление и MSA. Сначала он превращает их в основу 3D-структуры. А затем завершает моделирование, размещая боковые цепи аминокислот и уточняя их положение. После AlphaFold 2 выполняет итерационный процесс, называемый «recycling» — полученная структура возвращается в Evoformer — цикл повторяется до тех пор, пока моделируемая структура не приобретёт нужные показатели.

AlphaFold 3: новая архитектура для генерации трёхмерных структур белков, ДНК и РНК с точностью до атома

Принципы работы AlphaFold 3 и ее эффективность. Источник — *Принципы работы AlphaFold 3 и ее эффективность.* *Источник*

В мае 2024 года, за несколько месяцев до триумфа AlphaFold 2, Google DeepMind анонсировала третью версию AI-модели — AlphaFold 3. Новая модель даёт максимально сложные прогнозы — как будут выглядеть и взаимодействовать составные биологические структуры из комплекса белков, нуклеиновых кислот, ионов и других элементов. Третья версия AlphaFold отходит от модели трансформер и базируется на диффузионных моделях.

Влияние AlphaFold 2 на мировое сообщество

Более 2 млн учёных из 190 стран используют AlphaFold 2 для доступных и быстрых экспериментов со структурой белка. Это помогает разрабатывать новые лекарства, развивать науку и медицину.

Источники

ссылка на оригинал статьи https://habr.com/ru/articles/856310/