Анализ генома бактерий. Продолжение

В предыдущей статье, обсуждение получилось слишком крикливым. Но мы открыли свой сайт и там я переписал более взвешенно. Написанное там рекомендую прочитать, чтобы потом не жаловаться на сложность изложения. На самом деле нужен минимум информации для понимания. Я обещал написать продолжение о своем эксперименте, поэтому те кто заинтересовался проблематикой построения эволюционных деревьев — прошу под кат.

№1. Отбор всех гомологичных последовательностей (паралогов)

В прошлой статье мы сравнивали эволюционные деревья построенные по 16S и 23S генам. Мой же метод отличается тем, что предлагает сравнивать то, что в организмах не мутировало. В ранних статьях на хабре я предлагал использовать тРНК, т.к. это наиболее консервативные последовательности. Но это давало не так много информации. Поэтому я задался вопросом — а как вообще найти все те последовательности, которые в организмах не мутировали? Чтобы сделать это за реальное время, я пошел на маленькую хитрость. Дело в том, что прежде чем какая нибудь ДНК-последовательность передастся по наследству, она наверняка (если она полезная) будет представлена в геноме несколькими копиями. Т.е. речь идет о паралогах.

Если в пределах одного организма в результате хромосомной мутации произошло удвоение гена, то его копии называют паралогами.

Так вот если найти все паралоги в одном организме, то если происходило наследование то они передавались другим организмам. Нам лишь нужно потом отобрать те которые не успели мутировать.

Т.е. мы делаем следующие:
1. Ищем в каждой ДНК (геноме организма) то, что вообще имеет дубликаты от 50 до 150 символов
2. Для каждого найденного дубликата ищем по всем организмам его вхождения, т.е. узнаем и составляем базу как ВСЕ множество паралогов входит в множество геномов организма

(чтобы не отвлекаться от сути, как это сделать, я расскажу или отдельной статьей или скорее, при вашем интересе, со временем напишу статью на нашем сайте)

№2. Собственно построение эволюционного дерева

Как строить эволюционное дерево по моей методике я уже рассказывал. Поэтому сосредоточимся на результатах кросс-проверки. Напомню, что кросс-проверка двух деревьев построенному по гену 23S рРНК и построенному по гену 16S рРНК являющиеся последним результатом проекта The All-Species Living Tree, дала следующие распределение ошибок (по сравнению с предыдущей статьей, переведенно в проценты от общего числа рассматриваемых пар видов):

Я надеялся, что мой подход даст лучшие результаты, но увы он дал примерно такие же по качеству — но другие по сути. Вначале о качестве, тут кросс проверка делалась так. Так как было найдено около миллиона вхождений паралогов в геном организма, т.е. имеется миллион записей вида «ДНК последовательность ID такой-то входит в организм такой-то», то для кросс-проверки я разделил это множество случайным образом на две выборки. Построил по ним деревья и тем же способом сравнил построенные деревья. Получилось следующие:

Таким образом, по сути доверие к этим деревьям примерно одинаковое. И то и другое правильно примерно на 50%.

Конечно, дело похоже в том, что информации в геномах не так много, чтобы лишь по половине выборки можно было бы получить сходство. Поэтому я подумал, как можно более экономно распорядится имеющейся информацией. И подумал, что можно сделать такой кросс-анализ. Взять всю имеющуюся информацию построить полное дерево, и сравнить его с половинчатыми деревьями. Т.е. взять весь миллион записей и сравнить их вначале с одним полумиллионом, а потом со вторым. На рисунке ниже образы деревьев (а по ссылки в полном разрешении) построены по полной выборки, а красным цветом отображены те узлы, которые достаточно стабильны — т.е. при кросс-анализе не дали не одной ошибки.

Как видим, не так все плохо, часть ветвей полностью красные, но чем ближе к корню, тем меньше информации и положение видов в дереве не проходит проверку.

Но что интересно, я затем сверил полученное мной дерево и дерево проекта The All-Species Living Tree (после приведения к одному составу). Оказалось, что они совпадают всего на 25%.

И у меня возник важный вопрос интерпретации, может кто то подскажет, что это могло бы означать. Получается, что и моему методу построения деревьев можно доверять и также видимо можно доверять и классическом методу, используемому в проекте The All-Species Living Tree. Они по уровню совпадений не отличаются существенно. Но почему же они не совпадают между собой? Они получаются показывают как бы два варианта одного и того же. Но как может быть одновременно две полуистины, совпадающие только на 25%?

Полно-размерный формат можно посмотреть здесь.

Еще я подумал о том, что несовпадения появляются неслучайные, и где-то на уровне семейств организмов. На втором варианте изображения дерева видно, что виды кластеризуются по группам, и внутри группы есть много совпадений, в то время как положение самих групп между собой неточно.

Тут два вариант — или действительно мало пока данных, мало секвенированных промежуточных видов. Или, все же действительно, на уровне выше семейств у них нет общего предка, и эволюция идет не по Дарвину? Как минимум пока у нас нет надежных данных о том, что вообще существовал общий предок.

ссылка на оригинал статьи http://habrahabr.ru/post/168593/

Анализ генома бактерий. Продолжение

№1. Отбор всех гомологичных последовательностей (паралогов)

№2. Собственно построение эволюционного дерева

Комментарии

Добавить комментарий Отменить ответ