Основы биоинформатики или как строить ферменты

Приветствую, хабравчане! Сегодня мы поговорим о биологии и химии. В 21 веке химия заняла одну из самых важных позиций в нашем обществе: всё что нас окружает, многое из того, что мы едим, даже всеми нами любимый компьютер — результат химических технологий. Но почему-то на этом эволюция химических технологий завершилась — нам известно ОЧЕНЬ много про химию, а поэтому для «копания» осталось совсем немного разделов. Ну что же. Самое время вспомнить, что биология — это наука о саморегулирующихся химических системах. Фактически, биология — это качественно новый уровень химии, где не нужны мегапаскали и тысячи кельвинов для осуществления реакции. Хотите узнать как поставить биологию на службу химическим технологиям? Добро пожаловать под кат!

Небольшое введение

Все мы учились в школах и знаем, что состоим из органических веществ и небольшого числа (не считая воды) неорганических. А также многие из Вас, кто хотя бы немного учил биологию в школе, помнят, что человек произошел из клетки в ходе эволюции.
И если рассматривать современную теорию эволюции, то в ней говорится, что «Материалом для эволюции являются мутационная и рекомбинационная изменчивость». То есть, фактически, эволюция зависит от генов, а отсюда следует и основное заключение — эволюция зависит от белков, кодируемых этими генами. Ученым известно, что в организме человека около 200 тысяч (!) базовых белков, исключая схожие.
И здесь возникает вопрос: «А как, мать её, природе таки удалось довести до совершенства нашу белковую структуру?»

Как?

Для решения этого вопроса стоит немного погрузиться в химию и физику. Рассмотрим исходное количество аминокислот, используемых в ходе синтеза в клетках человека (только эти аминокислоты, не учитывая аминокислот бактерий, грибов и прочих). Все они имеют достаточно простое в химическом плане строение, но часто содержат нетривиальные элементы (N, S) или функциональные группы (карбоксильные, фенольные, карбонильные, гетероциклические, аминогруппы и другие). И… если присмотреться, то эти белки образуют самый универсальный набор деталей биологического конструктора. Каждая аминокислота может выполнять только заранее заданные функции в белковой молекуле, имеет четкий заряд, несет определенное число протонов. Для более глубокого изучения, рассмотрим последовательность аминокислот, например, в таком распространенном белке как инсулин.

Изучаем конструктор

ru.wikipedia.org/wiki/Аминокислоты

Как видим, структура достаточно непростая, но в ходе последовательного изучения структур аминокислот, анализом их положения можно примерно определить функции каждой аминокислоты в этом белке. Гли-Иле-Вал-Глу-Глн-Цис-Цис-Тир-Сер-Иле-Цис-Сер-Лей
Глицин обеспечивает первичное заворачивание белкового хвоста за счет гидрофобности СH₂ -группы, Изолейцин и Валин обеспечивают координацию «заворота» за счет больших гидрофобных разветвленных хвостов, которые определенным образом отталкивают или зацепляют другие участки молекулы. Глутамат и Глутамин своими гидрофильными концами ориентируются в сторону растворителя (Воды), загибая таким образом молекулу в необходимом направлении. -Цистеин-Цистеин- образуют растяжимые связки между участками молекул (такие же связки в вулканизированном каучуке), так молекула получает растяжимость и подвижность, Тирозин за счет своих зарядов и протона способен выполнят самые различные функции (но не удивлюсь, если он играет тут важную роль именно в осуществлении реакции). Серин-Изолейцин за счет соседства гидрофильной части и гидрофобной продолжают ориентирование молекулы в пространстве. При дальнейшем анализе можно придти к выводу, что фактическую работу выполняет, в данном случае, только короткая часть белковой молекулы, но все остальные аминокислоты выполняют другую важную функцию — определяют пространственную структуру белка. Кроме того, иногда встречаются белки, которые не способны работать без дополнительных частей. Это молекулы\атомы, обладающие специфическими свойствами. (Например, ион Fe²⁺, расположенный в гемоглобине).

Собираем конструктор!

Предположим, нам нужно создать свой белок со специфическими свойствами. Наиболее простым является, по моему мнению, создание фермента, так как структуру активного центра можно выяснить по ходу химической реакции и по форме молекул реагирующих веществ, их зарядам и форме образующегося вещества (и вновь по его заряду), затем теоретически построить базу активного центра (так, чтобы он крепко удерживал внутри себя молекулы, и обеспечивал их лучшую ориентацию, а после реакции уже не был способен удержать продукт реакции). Имея базу из последовательности аминокислот, останется лишь построить «подставку» под этот центр, которая бы ориентировала этот белок в водном растворе (а затем можно изучать и другие типы растворителей) нужным образом!

И что?

Тут-то и пора поговорить об IT. Все перечисленные процедуры выше достаточно просты при таком изложении, но алгоритм анализа представляет собой достаточно сложную последовательность действий. Программе необходимо работать с виртуальными объемными объектами с учетом их зарядов, размеров и прочих параметров. Алгоритм определения аминокислотной последовательности по третичной структуре может быть разным, но мне видится решение в использовании нейронных сетей, обученных перед этим на других структурах белков. Примерный алгоритм таков:
— Определение активного центра (а.ц.)
— Определение по а.ц. общей геометрии молекулы
— Расчет расположения гидрофильных концов
— Запуск нейронных сетей для заполнения недостающих участков молекулы необходимыми аминокислотами
Сразу хочу оговорить чем данный метод отличается от метода, например, Rosetta@home. В случае Rosetta производится расчет структуры по аминокислотной последовательности, в то время как при данном подходе будет строится сразу третичная структура под активный центр, а возможность использования известных доменов белка позволит сразу задавать белку порой уникальные свойства. Да, вновь будут требоваться большие вычислительные мощности, однако результат будет получен быстрее и он будет нести большую практическую пользу.

Перспективы и плюсы изучения синтеза белков:

Можно будет упростить многие химические производства и снизить до минимального влияние их на окружающую среду.
Создание качественно новых материалов, обладающих необходимыми заранее предсказуемыми (!) свойствами.
По данной технологии можно производить расшифровку белков по осуществляемым им функциям.
Так как это белковая молекула, то её строение можно будет хранить в надежном «бэкапе» — нуклеотидной последовательности ДНК или РНК.
Отсюда и следующий плюс — синтез этих белков могут осуществлять бактерии, тогда синтез приобретает невероятные скорости.
Внутренняя среда организма гомеостатична, поэтому под её условия достаточно просто создать какую-то белковую молекулу, которую впоследствии по исходникам можно менять в зависимости от меняющихся условий (перерасчет не займет много времени в сравнении с первичным анализом).

Заключение

Биоинформатика — обширная наука, и на данный момент она почти не изучена. В ней скрыт огромный потенциал, с её помощью можно решить большинство назревших проблем в технических, научных, транспортных, производственных, экологических, биохимических, фармацевтических и множестве других областей. В этой статье был предложен новый, ранее мной не встречаемый способ анализа белков, и, надеюсь, кому-то он придется по душе!

Спасибо за внимание!

P.S. На данном этапе имеются только небольшие наработки по конкретным алгоритмам анализа, поэтому прошу прощения за такое скупое описание алгоритмов, в будущем собираюсь посвятить отдельный топик данному вопросу.

ссылка на оригинал статьи http://habrahabr.ru/post/181055/