70 milliards. C’est le nombre d’exemplaires auquel a été tiré le livre Regenesis: How Synthetic Biology Will Reinvent Nature and Ourselves in DNA de George Church. Plus de trois fois le nombre total d’exemplaires des deux cents livres les plus populaires de l’histoire de l’humanité. 70 milliards d’exemplaires qui pèsent… 1 petit gramme et tiennent au fond d’un éprouvette. Comment cette prouesse a pu être réalisée ? En stockant le livre sous forme d’ADN.
L’idée est toute simple. Un brin d’ADN est constitué de la succession de quatre molécules, les bases azotées, notées T, G, A et C. Elles fonctionnent par paires pour former la double hélice d’ADN : les T complètent les G, les A complètent les C. Il suffit donc de considérer que les bases T et G codent des 1 et que les bases A et C codent des 0, et une brin d’ADN devient une suite de bits. Les généticien ayant mis au point depuis quelques années déjà des outils permettant de synthétiser un brin d’ADN avec les bases que l’on souhaite et de lire un brin d’ADN, il devient ainsi possible d’encoder une suite de bits quelconque dans un brin d’ADN, puis de la relire.
Il ne restait donc plus qu’à trouver un moyen d’encodage adapté. En particulier, il n’est pas possible de synthétiser de façon fiable des chaînes suffisamment longue pour stocker un livre complet (53 000 mots). Le livre a donc été découpé en blocs de 77 bits, chaque bloc étant numéroté sur 19 bits, le tout formant ainsi une chaîne de 96 bits, à la portée des synthétiseurs d’ADN. Une fois toutes les chaînes produits, il ne restait plus qu’à les dupliquer. Une opération très simple, s’appuyant sur la complémentarité des bases, et qui est effectuée chaque jour par les cellules vivantes : le double brin d’ADN est séparé en deux, puis chaque brin est complété par son complémentaire, formant ainsi deux doubles brins. Puis quatre, puis huit, puis seize, etc… Au final, après 70 milliards de copie, l’ensemble tient dans 1 gramme d’ADN. Pour relire, il n’y a plus qu’à piocher dans les milliards de brins pour retrouver un exemplaire de chaque portion, puis de les décoder et de les recoller.
L’ensemble de l’opération ne prend que quelques heures par Gigabit, avec un taux d’erreur de l’ordre d’un bit sur cinq millions. Les données ainsi stockées peuvent rester lisibles pendant des centaines ou des milliers d’années.
Impressionnant, non ? Et pourtant, ce n’est que le début. Cette opération, réalisée l’été dernier, est déjà dépassée aujourd’hui par des méthodes plus performantes et plus fiables.
Développée par le Bioinformatics Institute, une nouvelle technique parvient à s’affranchir des erreurs de lecture/écriture. Cette méthode utilise un nouveau codage permettant d’éviter la répétition d’une base dans la séquence (qui est la principale cause d’erreur, y compris dans le vivant, où elles sont à l’origine de certaines mutations génétiques), tandis que le découpage de la séquence en petites portions (de 117 bits) se fait de façon à ce que deux portions consécutives aient une partie commune, introduisant ainsi de la redondance.
On est bien sûr encore loin d’avoir des solutions accessibles au grand public, le matériel nécessaire étant aussi coûteux et encombrant que la densité de stockage est grande. Mais George Church souligne que les progrès dans le domaine du génie génétique vont à une vitesse impressionnante, avec une baisse très rapide des coûts (qui sont divisés par 5 tous les ans pour l’écriture et 20 pour la lecture) et une augmentation tout aussi rapide des performances. Les coûts ont déjà tellement diminué que l’étape de duplication est aujourd’hui la solution de duplication de données la moins cher qui soit, toutes technologies confondues, les coûts se concentrant en fait sur la réalisation du premier exemplaire et sur la lecture.
Dans quelques décennies, nous pourrons donc peut-être bénéficier de cette technologie, qui simplifiera grandement la gestion des sauvegardes et permettra de ne plus vraiment se poser la question de ce qu’il faut conserver ou non dans nos données numériques.