Учёные Института AIRI разработали нейросетевую модель Genatator, которая строит карту генов по последовательности ДНК. Как сообщили информационной службе Хабра в AIRI, модель предназначена для разметки геномов, у которых нет подробных биологических данных. Genatator получает последовательность ДНК и размечает в ней гены. Модель находит границы генов, определяет тип транскрипта и восстанавливает структуру. Система выделяет гены, экзоны, интроны и другие участки.

Поиск генов в ДНК затруднён, потому что у них нет универсальных сигналов начала и конца. Границы зависят от сочетаний коротких мотивов. Их значение определяется контекстом. Гены могут перекрываться и находиться на разных цепях ДНК.
Нейрсоестевая модель Genatator работает по этапам. Сначала модели находят возможные начала и окончания транскриптов на обеих цепях ДНК. Затем другая модель проверяет, похож ли участок на ген. После этого классификатор определяет тип транскрипта. Далее сегментационная модель уточняет структуру гена и выделяет экзоны и интроны. В конце алгоритмы убирают сомнительные предсказания и формируют итоговую разметку.
Подход отличается от классических методов тем, что модель опирается не только на заданные правила. Традиционные инструменты используют признаки белок-кодирующих генов, такие как старт- и стоп-кодоны и сигналы сплайсинга. Они хуже работают с нетранслируемыми участками и длинными некодирующими РНК. Новая модель обучена на больших наборах геномов и ищет закономерности прямо в ДНК.
Этот подход важен для немодельных организмов. У человека и мыши есть подробные аннотации, полученные за десятилетия. Для большинства организмов есть только сборка генома без разметки. На момент анализа в базе NCBI только 166 из 4 582 геномных сборок млекопитающих имели аннотацию. Без неё геном сложно использовать в исследованиях.
Система находит два типа генов: белок‑кодирующие и гены длинных некодирующих РНК. Для них она определяет экзоны и интроны. Для белок‑кодирующих генов дополнительно выделяются участки CDS и области 5′‑UTR и 3′‑UTR.
Genatator обучалась на генах человека и 38 видов млекопитающих, включая моржей и слонов. Модель показала хорошие результаты и на других организмах, которые не входили в обучение. Среди них плодовая мушка Drosophila melanogaster, растение Arabidopsis thaliana и дрожжи Saccharomyces cerevisiae.
Модель также нашла редкие участки, известные как poison exons. Их включение может приводить к деградации РНК. Такие элементы редко встречаются даже в качественных аннотациях. Разработчики уделили внимание точности границ генов. Ошибка даже на один нуклеотид может вызвать сдвиг рамки считывания и исказить предсказание белка.
Как отметил доктор биологических наук и ведущий научный сотрудник Института AIRI и ИЦиГ СО РАН Вениамин Фишман, новые геномы собирают быстрее, чем их успевают размечать. По словам Вениамина Фишмана, такие модели могут стать первым этапом анализа и позволят быстрее получать карту генов-кандидатов для проверки.
Для оценки качества создан открытый лидерборд, где модель сравнивают с другими решениями. По ряду метрик она показывает лучшие результаты. Датасеты для обучения подготовили учёные Научно-технологического университета «Сириус» и ИЦиГ СО РАН.
ссылка на оригинал статьи https://habr.com/ru/articles/1055580/