03 марта 2017 18:41

Новая технология позволит сохранить всю информацию человечества в одной комнате при помощи ДНК

В новом исследовании описана новая методика кодирования для хранения данных в ДНК.
Фото New York Genome Center.

Проблема хранения больших объёмов данных всё больше тревожит инженеров: за последние два года было создано больше информации, чем за все предыдущие века. Учёные давно предлагают решение в виде ДНК-накопителей, и новая методика позволяет хранить данные достаточно эффективно.

Проблема хранения больших объёмов данных всё больше усугубляется. Только за последние два года было создано столько информации, сколько не было произведено человечеством за все предыдущие века. Согласно статистике, люди сегодня создают два с половиной экзабайта данных ежедневно – это 2500 миллиардов гигабайтов. Так что в скором времени поток информации может просто "задушить" все возможности хранения жёстких дисков. Так, в науке немало проблем такого рода порождает быстроразвивающаяся отрасль генетики.

Не так давно исследователи представили "план по спасению", придумав новый способ кодировать цифровую информацию прямо в ДНК. Новый способ позволяют делать это более эффективно и не бояться потерять собранную информацию.

Современные носители имеют ограниченную ёмкость и ограниченный срок службы (впрочем, отдельные экспериментальные жёсткие диски потенциально могут хранить информацию 10 тысяч лет). Многие цифровые данные хранятся в центрах обработки информации компании Google в Финляндии и Америке. Но и они со временем истощатся.

Молекулы ДНК обладают целым рядом преимуществ для хранения данных. По подсчётам специалистов, в одном грамме ДНК можно поместить петабайты данных и информация не потеряется в течение тысячи лет. Для сравнения, сегодня самый лучший жёсткий диск может сохранить всего шесть терабайтов данных на срок до 50 лет.

ДНК-носитель также не требует постоянной подачи электроэнергии и является крайне долговечным. Другие не требующие электроэнергии носители, к примеру, магнитные плёнки разрушаются уже в течение десятилетия. Кроме того, миниатюрность ДНК (при впечатляющей вместимости) играет немаловажную роль.

"ДНК не деградирует со временем, как это делают, например, кассеты или компакт-диски, она также не устаревает", — говорит Янив Эрлих (Yaniv Erlich), учёный из Колумбийского университета.

Исследователи пытаются научиться хранить информацию при помощи ДНК с 2012 года (например, привлекая растения). В тот год знаменитый генетик из Гарвардского университета Джордж Чёрч (к слову, он же намерен через два года "воскресить" мамонта) и его коллеги закодировали книгу с 52 тысячами слов в тысячи фрагментов ДНК, используя её четырёхбуквенный "язык".

Поясним. Запись (кодирование) книги производилась с использованием "черновика" в формате HTML при помощи специально написанной программы. Текст, а также изображения были преобразованы из двоичной системы в четвертичную, где нуклеотиды A или C соответствовали нулю, а G или T единице.

Вся информация была разделена на 96-битные блоки данных, при этом адреса битового потока имели длину в 19 символов, начиная с 0000000000000000001. Общий объём книги составил 54898 блоков данных, каждый из которых представляет собой отдельную нить ДНК.

Но эта попытка была не особа эффективна: она позволяла хранить "только" 1,28 петабайта в одном грамме ДНК. Другие варианты технологии давали лучший результат. Между тем, исследователи уверены, что ещё не добились наилучшего показателя и не раскрыли максимальные возможности хранения больших объёмов данных в ДНК. Правда, Эрлих считает, что практически приблизился к успеху.

Он и его коллега Дина Зелинская (Dina Zielinski), сотрудница организации New York Genome Center, изучали алгоритмы, которые были использованы для кодирования и декодирования данных. Они начали с шести файлов, включая полную операционную систему компьютера, компьютерный вирус, французский фильм 1985 года "Прибытие поезда на вокзал Ла-Сиоты" и исследование 1948 года инженера Клода Шеннона.

Сначала они преобразовали файлы в двоичные строки из единиц и нулей, затем объединили их в основной файл и разбили все данные на короткие строки бинарного кода.

Специалисты разработали алгоритм, называемый "ДНК-фонтан", который случайным образом "упаковывал" строки в так называемые "капельки". В последние были добавлены дополнительные тэги (маркировка), чтобы помочь собрать их позднее в правильном порядке. В целом исследователи сгенерировали цифровой список из 72 тысяч нитей ДНК длиной в 200 оснований каждая.

Далее они послали информацию в виде текстовых файлов в Twist Bioscience – компания, которая синтезировала нити ДНК по разработанному шаблону. Спустя две недели специалисты получили по почте ампулу с молекулами ДНК, в которой были закодированы все файлы.

Затем учёные взялись расшифровать информацию с такой необычной "флэшки". С этой целью они обратились к методике секвенирования ДНК. Все последовательности были введены в компьютер, который перевёл обратно генетический код в двоичную систему и использовал тэги для того, чтобы собрать вновь все шесть оригинальных файлов.

Способ так хорошо сработал, что новые файлы (точнее восстановленные) не содержали никаких ошибок. Исследователи также смогли сделать практически неограниченное количество безошибочных копий своих файлов с помощью полимеразной цепной реакции – стандартного метода копирования ДНК.

Более того, по словам Эрлиха, они смогли в среднем кодировать 1,6 бита данных в одном нуклеиновом основании (в общей сложности 215 петабайтов на один грамм ДНК). Это на 60 процентов больше, чем когда-либо ранее. И это примерно 85 процентов от теоретического лимита (1,8 бита на одно нуклеиновое основание).

Но после всех описанных выше преимуществ вынуждены обратить внимание на ложку дёгтя в этой прекрасной бочке мёда: впечатляющий ценник на подобного рода услуги. В этом отношении новый метод вряд ли готов к широкомасштабному применению. Необходимо семь тысяч долларов США, чтобы синтезировать два мегабайта данных такого файла. Чтобы прочитать его, нужно будет потратить ещё две тысячи долларов США. Эрлих считает, что со временем затраты, конечно, удастся уменьшить, но не в ближайшие годы.

Исследование о новой более эффективной технологии хранения информации в ДНК опубликовано в научном издании Science.

Добавим, что проект "Вести.Наука" часто удивляет читателей сообщениями о способах хранения информации будущего. В частности, в Китае было создано устройство хранения данных из яичной скорлупы. Что же касается сроков хранения данных, то компания Hitachi пообещала сохранить информацию и вовсе в вечности.