№1. Отбор всех гомологичных последовательностей (паралогов)
В прошлой статье мы сравнивали эволюционные деревья построенные по 16S и 23S генам. Мой же метод отличается тем, что предлагает сравнивать то, что в организмах не мутировало. В ранних статьях на хабре я предлагал использовать тРНК, т.к. это наиболее консервативные последовательности. Но это давало не так много информации. Поэтому я задался вопросом — а как вообще найти все те последовательности, которые в организмах не мутировали? Чтобы сделать это за реальное время, я пошел на маленькую хитрость. Дело в том, что прежде чем какая нибудь ДНК-последовательность передастся по наследству, она наверняка (если она полезная) будет представлена в геноме несколькими копиями. Т.е. речь идет о паралогах.
Если в пределах одного организма в результате хромосомной мутации произошло удвоение гена, то его копии называют паралогами.
Так вот если найти все паралоги в одном организме, то если происходило наследование то они передавались другим организмам. Нам лишь нужно потом отобрать те которые не успели мутировать.
Т.е. мы делаем следующие:
1. Ищем в каждой ДНК (геноме организма) то, что вообще имеет дубликаты от 50 до 150 символов
2. Для каждого найденного дубликата ищем по всем организмам его вхождения, т.е. узнаем и составляем базу как ВСЕ множество паралогов входит в множество геномов организма
(чтобы не отвлекаться от сути, как это сделать, я расскажу или отдельной статьей или скорее, при вашем интересе, со временем напишу статью на нашем сайте)
№2. Собственно построение эволюционного дерева
Как строить эволюционное дерево по моей методике я уже рассказывал. Поэтому сосредоточимся на результатах кросс-проверки. Напомню, что кросс-проверка двух деревьев построенному по гену 23S рРНК и построенному по гену 16S рРНК являющиеся последним результатом проекта The All-Species Living Tree, дала следующие распределение ошибок (по сравнению с предыдущей статьей, переведенно в проценты от общего числа рассматриваемых пар видов):
Я надеялся, что мой подход даст лучшие результаты, но увы он дал примерно такие же по качеству — но другие по сути. Вначале о качестве, тут кросс проверка делалась так. Так как было найдено около миллиона вхождений паралогов в геном организма, т.е. имеется миллион записей вида «ДНК последовательность ID такой-то входит в организм такой-то», то для кросс-проверки я разделил это множество случайным образом на две выборки. Построил по ним деревья и тем же способом сравнил построенные деревья. Получилось следующие:
Таким образом, по сути доверие к этим деревьям примерно одинаковое. И то и другое правильно примерно на 50%.
Конечно, дело похоже в том, что информации в геномах не так много, чтобы лишь по половине выборки можно было бы получить сходство. Поэтому я подумал, как можно более экономно распорядится имеющейся информацией. И подумал, что можно сделать такой кросс-анализ. Взять всю имеющуюся информацию построить полное дерево, и сравнить его с половинчатыми деревьями. Т.е. взять весь миллион записей и сравнить их вначале с одним полумиллионом, а потом со вторым. На рисунке ниже образы деревьев (а по ссылки в полном разрешении) построены по полной выборки, а красным цветом отображены те узлы, которые достаточно стабильны — т.е. при кросс-анализе не дали не одной ошибки.
Как видим, не так все плохо, часть ветвей полностью красные, но чем ближе к корню, тем меньше информации и положение видов в дереве не проходит проверку.
Но что интересно, я затем сверил полученное мной дерево и дерево проекта The All-Species Living Tree (после приведения к одному составу). Оказалось, что они совпадают всего на 25%.
И у меня возник важный вопрос интерпретации, может кто то подскажет, что это могло бы означать. Получается, что и моему методу построения деревьев можно доверять и также видимо можно доверять и классическом методу, используемому в проекте The All-Species Living Tree. Они по уровню совпадений не отличаются существенно. Но почему же они не совпадают между собой? Они получаются показывают как бы два варианта одного и того же. Но как может быть одновременно две полуистины, совпадающие только на 25%?
Полно-размерный формат можно посмотреть здесь.
Еще я подумал о том, что несовпадения появляются неслучайные, и где-то на уровне семейств организмов. На втором варианте изображения дерева видно, что виды кластеризуются по группам, и внутри группы есть много совпадений, в то время как положение самих групп между собой неточно.
Тут два вариант — или действительно мало пока данных, мало секвенированных промежуточных видов. Или, все же действительно, на уровне выше семейств у них нет общего предка, и эволюция идет не по Дарвину? Как минимум пока у нас нет надежных данных о том, что вообще существовал общий предок.
ссылка на оригинал статьи http://habrahabr.ru/post/168593/
Добавить комментарий