Cyfrowe nośniki danych oparte o DNA - kiedy możemy się ich spodziewać?

Cyfrowe nośniki danych na DNAO pamięciach białkowych po raz pierwszy dowiedziałem się, kiedy jeszcze chodziłem do szkoły. W komputerach mieliśmy wtedy dyski o pojemności kilkudziesięciu megabajtów, często jeszcze z silnikami krokowymi, pliki przenosiło się na dyskietkach a płyty CD były prawdziwą nowością. Pamięci wykorzystujące chemię organiczną miały zrewolucjonizować technikę przechowywania danych. Dziś mamy klikuterabajtowe dyski twarde, coraz większe dyski SSD, pliki przenosimy na pendrivach, płyty - nie tylko CD, ale też DVD i Blu-Ray zostały zepchnięte do niszowych zastosowań.

Nieśmiertelnych dyskietek używa już tylko Pendtagon do przechowywania kodów nuklearnych (w ten sposób zabezpiecza się przed ich kradzieżą przez hakerów) i ZUS do przechowywania naszych emerytur (między innymi dlatego będą tak małe). Minęło wiele lat, ale pamięci białkowych nadal nie ma na rynku. Czy mamy w ogóle szanse, by ich doczekać? A może to tylko science-fiction...albo mrzonka naiwnych futurystów? Jak takie nośniki mogą wyglądać i w jaki sposób mogłyby działać?

DNA potencjalnie może być bardzo atrakcyjnym nośnikiem informacji ze względu na swoją odporność na czynniki zewnętrzne i niezawodność oraz możliwość osiągnięcia wysokiej gęstości zapisu. Przeprowadzone badania wykazują możliwość przechowywania za jego pomocą informacji z niezawodnością wyższą niż oferują konwencjonalne nośniki danych, zaś przy zastosowaniu odpowiednio zoptymalizowanych metod kodowania możliwe jest przechowywanie 115 EB (1 Eksabajt = 1.152.921.504.606.846.976 bajtów) informacji w 1 gramie DNA.

Kwas dezoksyrybonukleinowy, to cząsteczka zbudowana z sekwencji nukleotydów czterech rodzajów, różniących się obecnością zasad: adeniny, cytozyny, guaniny lub tyminy. Cząsteczki DNA mogą teoretycznie osiągać dowolną długość i zawierać nukleotydy różnych rodzajów ułożone w dowolnej kolejności. Poszczególne nukleotydy mogą reprezentować określone stany logiczne. Kluczowym problemem pozostaje opracowanie dostatecznie taniej i wydajnej technologii zapisu i odczytu w nośnikach danych tego typu.

Obecnie tworzone są stosunkowo krótkie łańcuchy DNA, liczące po kilka tysięcy nukleotydów, które są przechowywane w nieuporządkowany sposób. Negatywnie wpływa to na czasy odczytu informacji. Ponadto sam proces odczytu jest złożony i kosztowny. Przy tym wraz ze wzrostem długości łańcucha znacząco rośnie ilość bitowych błędów. Natomiast przy wzroście liczby łańcuchów DNA w nośniku nawet o wiele rzędów wielkości wzrost liczby błędów bitowych jest niewielki.

Główne różnice pomiędzy zapisem danych w DNA, a zapisem w konwencjonalnych nośnikach informacji wynikają z faktu, że dane muszą być zapisywane w wielu cząsteczkach DNA o ograniczonej długości. Dostęp do danych następuje z wykorzystaniem techniki sekwencjonowania. Odbywa się to przez losowe pobieranie próbek, przez co dekoder nie wie, która próbka została pobrana przed jej odczytaniem. Nie potrafi też wybrać właściwej próbki - musi losować aż do skutku. Sytuację komplikuje fakt, że w praktyce przed sekwencjonowaniem przeprowadzana jest powielająca łańcuchy reakcja łańcuchowa polimerazy, w konsekwencji czego dekoder może wielokrotnie pobrać i zsekwencjonować kopie już odczytanych próbek zanim odczyta wszystkie fragmenty niezbędne do skompletowania potrzebnych plików.

Ponieważ próbki pobierane są w nieuporządkowany, losowy sposób, niezbędne są algorytmy, które pozwolą na złożenie odczytanych fragmentów informacji we właściwej kolejności oraz zapewnią odpowiednią korekcję błędów. Dlatego każda cząsteczka musi mieć zakodowany nagłówek pozwalający na określenie jej położenia w adresacji logicznej analogicznie do znaczników adresowych i tablic translacji występujących w konwencjonalnych nośnikach danych. Ponadto konieczne jest stosowanie znaczników odróżniających łańcuchy zawierające dane skasowane. Dzięki takim znacznikom dekoder może identyfikować duplikaty i łańcuchy z usuniętą informacją, a także układać odczytane dane we właściwej kolejności. Niestety w przypadku wystąpienia błędów w tych markerach dekoder może mieć problem z ustawieniem zsekwencjonowanych fragmentów informacji we właściwej kolejności oraz odfiltrowaniem duplikatów i fragmentów zawierających dane skasowane.

Problemem jest także czas dostępu do danych uzależniony przede wszystkim od czasu sekwencjonowania łańcuchów DNA. Wraz ze wzrostem ilości przechowywanych danych, dekoder będzie musiał wykonywać coraz więcej operacji tego typu, w tym sekwencjonując duplikaty już odczytanych fragmentów informacji.

Poważnym ograniczeniem technicznym i ekonomicznym we wprowadzeniu nośników opartych o DNA jest także złożony i kosztowny proces syntezy kwasu dezoksyrybonukleunowego. O ile proces replikacji na podstawie istniejących sekwencji DNA jest dobrze opanowany, to tworzenie zupełnie nowych łańcuchów zgodnie ze ściśle zdefiniowanym wzorcem jest znacznie trudniejsze. Poza tym konieczne jest opracowanie i wdrożenie mechanizmów wykrywania i korekcji błędów. Przyjęcie założenia, że w rzeczywistych nośnikach procesy syntezy, przechowywania i dekodowania informacji będą przebiegały bezbłędnie jest nierealistyczne. Prawdopodobnie najrozsądniejszym rozwiązaniem będzie zastosowanie kodów korekcji na poziomie pojedynczej cząsteczki DNA,.

Ciekawym problemem może być podatność nośników danych wykorzystujących syntetyczny DNA na ataki naturalnych wirusów występujących w przyrodzie. Zjawisko to może wystąpić z wysokim prawdopodobieństwem, gdyż z chemicznego punktu widzenia syntetyczne sekwencje DNA są nieodróżnialne od naturalnych. Tak więc z chwilą faktycznego wprowadzenia na rynek nośników danych opartych o DNA granica pomiędzy wirusem biologicznym, a komputerowym może stać się bardzo płynna.

Kiedy jednak będziemy musieli zmierzyć się z tymi problemami w codziennym życiu? I czy w ogóle będziemy mieli kiedyś w naszych komputerach biologiczne nośniki informacji, z których będzie można korzystać bez specjalistycznej wiedzy biochemicznej? Obecnie zapisywanie informacji w materiale biologicznym przeprowadzane jest wyłącznie w warunkach laboratoryjnych. Droga do technologii przemysłowej i produktów na sklepowych półkach jest bardzo daleka. Możliwe, że takie nadające się do normalnej eksploatacji nośniki powstaną dopiero za kilkaset, a może nawet kilka tysięcy lat. Najbardziej optymistyczne prognozy dają cień szansy na dożycie do rynkowej premiery dysków dezoksyrybonukleinowych jedynie najmłodszym z nas. Do rozwiązania pozostało jeszcze wiele problemów związanych nie tylko z zapisem, odczytem i kodowaniem informacji, ale też konieczne są dalsze badania nad syntezą i sekwencjonowaniem DNA. Bez tego nie uda się uzyskać rozsądnych czasów zapisu i odczytu, co jest koniecznym warunkiem dla odniesienia sukcesu rynkowego takich nośników. Bardzo możliwe, że wady nośników wykorzystujących DNA przeważą nad ich zaletami i zanim prace nad nimi zostaną ukończone, powstaną inne, lepsze technologie zapisu danych. Nie zapominajmy, że równolegle prowadzone są prace nad nowymi technologiami zapisu magnetycznego, półprzewodnikowego i optycznego.

Autorem artykułu jest Paweł Kaczmarzyk - prezes i współwłaściciel serwisu komputerowego Kaleron sp. z o. o.

Komentarze