Информация на пороге бессмертия, часть 2: ДНК-накопитель

от автора

Представьте, что вы можете хранить каждый бит информации в чем-то таком же маленьком, как микроскопическая капелька крови. Странно? А ведь это именно то, к чему уже давно стремятся ученые — хранение данных в ДНК. Куда там хранилищам 5D, о которых мы недавно писали! Что это за новый и необычный тип хранилища? Как это работает? А самое главное, каков его потенциал?



ДНК (дезоксирибонуклеиновая кислота) — это биологическая полимерная молекула, которая несет генетическую информацию о развитии и функционировании организма. Почти все живое на Земле хранит свою генетическую информацию в виде ДНК. ДНК состоит из мономеров (нуклеотидов), которые состоят из сахара (дезоксирибозы), азотистого основания (аденин, гуанин, цитозин, тимин) и фосфорной кислоты. Порядок расположения нуклеотидов и азотистых оснований определяет генетический код: это то, что регулирует все биологические процессы.


Состав и структура молекулы ДНК

Уже известно много свойств ДНК, а манипуляции с ДНК широко используются в исследованиях и медицине: генетически модифицированные организмы, прививки, лечение ВИЧ, генная терапия. ДНК — это не только биологическая смесь: по своей сути, это химический полимер, обладающий физическими свойствами, который не мог остаться вне поля зрения химиков, физиков и инженеров. ДНК может стабилизировать наноструктуры, хранить терабайты информации и быть важным компонентом новой информационной эры.

ДНК — это практически единственный способ хранения, который может существовать тысячу или даже миллион лет, и ДНК древних окаменелостей тому доказательство. Молекула ДНК устойчива в окружающей среде, ученые даже нашли 300000-летнюю митохондриальную ДНК медведя и расшифровали ее. Представьте, что вся человеческая история в виде текста, изображений, видео и аудио могут быть искусственно закодирована в молекуле ДНК и сохранена для наших потомков на тысячи лет.

Кроме того, работа с информацией основана на использовании двоичного кода (1 или 0). ДНК имеет больший потенциал для хранения данных, поскольку в каждый бит можно закодировать четыре буквы (А, Г, Т, С), а синтезированные молекулы ДНК с определенной последовательностью нуклеотидов смогут вместить объем информации до 1 Зб (млрд. терабайт) всего в нескольких граммах ДНК.


Процесс записи данных в ДНК

По некоторым оценкам, ДНК сможет вмещать объем данных, содержащийся в ста промышленных центрах обработки данных, и хранить его в пространстве размером с обувную коробку.

ДНК достигает этого двумя способами. Во-первых, единицы кодирования очень малы, менее половины нанометра размером, тогда как транзистор современного компьютерного накопителя не меньше 10 нанометров размером. В то же время такая разница в размерах увеличивает емкость хранения не в 10, а тысячу и даже в 100 000 раз. Эта разница возникает от большого преимущества ДНК: трехмерности.

Пара ложек дёгтя

Конечно, есть некоторые ограничения в использовании ДНК в качестве устройства хранения. Например, синтезировать длинные последовательности ДНК очень долго, кроме того, цена этих манипуляций является относительно высокой, а при химическом синтезе ДНК велика вероятность ошибки. Но ученые на пути к преодолению этих трудностей: во-первых, для хранения информации используются тысячи коротких молекул ДНК (до 200 нуклеотидов) вместо одного или нескольких очень длинных полимеров. Во-вторых, стоимость синтеза ДНК и секвенирования снижается в геометрической прогрессии в течение года: стоимость одного мегабайта кодирование составляет около $500 (три раза меньше, чем два года назад), а его получение стоит около $200.


Повышение скорости секвенирования с течением времени

В 2013 году команда из Европейского Института Биоинформатики отчитались об успешной записи 739 килобайт данных в ДНК — в том числе цветного изображения, 154 сонетов Шекспира и отрывок из речи Мартина Лютера Кинга «У меня есть мечта». Недавно ученые из Института Химии и Биоинженерии Цюриха разработали новый улучшенный метод кодирования данных и исправления ошибок во время секвенирования ДНК, а также увеличили эффективность хранения — теперь молекула ДНК, заключенная в оболочку из силиконового стекла, может храниться до 1 000 000 лет при температуре -18°C.

ДНК = RAM?

То, что делает хранение данных ДНК уникальным, помимо самого носителя, это то, что код работает не как жесткий диск, а больше напоминает оперативную память компьютера. Хранение данных в ДНК похоже на оперативную память компьютера тем, что не имеет значения, где именно в цепочке ДНК хранятся данные — извлечь их можно отовсюду.

Здесь стоит отметить суперэффективную структуру хранения ДНК в виде двойной спирали. Хроматин, белковая система ДНК, которая составляет хромосомы, это по сути очень сложный механизм, позволяющий молекуле ДНК скручиваться достаточно плотно, при этом, быстро раскручиваться тогда, когда организм остро нуждается в определенных участках ДНК.

Процесс извлечения определенного участка ДНК

Эта природная силы хроматина система, которая позволяет любому гену быть извлеченным из любой части генома с примерно одинаковой эффективностью, привела исследователей к сравнению ДНК и версией компьютерной памяти с произвольным доступом, или RAM. К сожалению, здесь сходство заканчивается, и появляется основной недостаток — скорость. ДНК может храниться почти вечно, но и ждать загрузки файлов придется годами.

ДНК значительно труднее и медленнее читать, чем обычные компьютерные транзисторы, т. е. в плане скорости доступа ДНК похожа на оперативную память компьютера меньше, чем любая флэшка или жесткий диск.

Это происходит потому, что невероятные способности эволюционного решения по хранению данных необязательно включают в себя мгновенное чтение информации. Для чтения с молекулы ДНК необходимо распутать сложную структуру хроматина, затем распутать саму двойную спираль ДНК, сделать копию последовательности и запаковать все обратно — ясно, что времени на это потребуется немало.

Для чтения данных необходимо должны добавить дополнительный шаг. Чтение информации достигается с использованием старой техники биотехнологических лабораторий, называемой полимеразной цепной реакцией (ПЦР) для амплификации, или неоднократного повторения, последовательности, которую мы хотим прочитать. Весь образец затем секвенируется, и все многочисленные повторения одной и той же последовательности отбрасываются: то, что остается, и представляет информационный интерес. Эти участки ДНК помечаются небольшими целевыми последовательностями, которые позволяют начать процесс репликации.


Расщепление ДНК для чтения информации

В клетках гены включаются и отключаются за счет изменения доступности этих целевых последовательностей. Это можно сделать с помощью намотки и размотки хроматина, прямого дополнения или удаления блокатора белка, или даже взаимодействия с другими областями генома. Теоретически этот процесс можно было бы сделать куда более совершенным, но это потребовало бы высокого уровня сложности в белковой инженерии, который на настоящий момент пока не достигнут.

ссылка на оригинал статьи https://habrahabr.ru/post/317110/