L'ADN comme support de stockage de vastes données informatiques : une réalité pour très bientôt ? -

Une étude révolutionnaire fait un pas en avant important dans la quête du développement d'un système de stockage basé sur l'ADN pour les données numériques.

Publicité données croît à un rythme exponentiel aujourd'hui en raison de notre dépendance aux gadgets et nécessite un stockage robuste à long terme. Le stockage des données devient peu à peu difficile car la technologie numérique actuelle n'est pas en mesure de fournir une solution. Un exemple étant que plus de données numériques ont été créées au cours des deux dernières années que dans toute l'histoire des ordinateurs, en fait 2.5 quintillions d'octets {1 quintillion d'octets = 2,500,000 2,500,000,000 XNUMX téraoctets (To) = XNUMX XNUMX XNUMX XNUMX gigaoctets (Go)} de données sont en cours de création chaque jour dans le monde. Cela inclut les données sur les sites de réseaux sociaux, les transactions bancaires en ligne, les dossiers des entreprises et des organisations, les données des satellites, la surveillance, la recherche, le développement, etc. Ces données sont énormes et non structurées. Par conséquent, s'attaquer aux énormes besoins de stockage des données et à sa croissance exponentielle est désormais un grand défi, en particulier pour les organisations et les entreprises qui ont besoin d'un stockage robuste à long terme.

Les options disponibles actuellement sont le disque dur, les disques optiques (CD), les clés USB, les lecteurs flash et les lecteurs de bandes plus avancés ou les disques optiques BluRay qui stockent environ jusqu'à 10 téraoctets (To) de données. De tels dispositifs de stockage, bien qu'utilisés couramment, présentent de nombreux inconvénients. Premièrement, ils ont une durée de conservation faible à moyenne et ils doivent être stockés dans des conditions de température et d'humidité idéales pour pouvoir durer plusieurs décennies et nécessitent donc des espaces de stockage physiques spécialement conçus. Presque tous consomment beaucoup d'énergie, sont encombrants et peu pratiques et peuvent être endommagés lors d'une simple chute. Certains d'entre eux sont très coûteux, sont souvent entachés d'erreurs de données et ne sont donc pas assez robustes. Une option qui a été universellement acceptée par l'organisation est appelée cloud computing - un arrangement dans lequel une entreprise loue essentiellement un serveur "extérieur" pour gérer tous ses besoins informatiques et de stockage de données, appelé "cloud". L'un des principaux inconvénients du cloud computing sont les problèmes de sécurité et de confidentialité et la vulnérabilité aux attaques de pirates. Il existe également d'autres problèmes tels que les coûts élevés impliqués, le contrôle limité par l'organisation mère et la dépendance à la plate-forme. Le cloud computing est toujours considéré comme une bonne alternative pour le stockage à long terme. Cependant, il semble que les informations numériques générées dans le monde dépassent certainement notre capacité à les stocker et des solutions encore plus robustes sont nécessaires pour répondre à ce déluge de données tout en offrant une évolutivité pour prendre également en compte les besoins de stockage futurs.

L'ADN peut-il aider au stockage informatique ?

Nos L'ADN (acide désoxyribonucléique) est considéré comme un support alternatif passionnant pour le stockage de données numériques. L'ADN est le matériau auto-réplicatif présent dans presque tous les organismes vivants et c'est ce qui constitue notre information génétique. Un artificiel ou synthétique L'ADN est un matériau durable qui peut être fabriqué à l'aide de machines de synthèse d'oligonucléotides disponibles dans le commerce. Le principal avantage de l'ADN est sa longévité car un ADN dure 1000 fois plus longtemps que le silicium (puce de silicium - le matériau utilisé pour la construction ordinateurs). Étonnamment, un seul millimètre cube de L'ADN peut contenir un quintillion d'octets de données ! L'ADN est également un matériau ultracompact qui ne se dégrade jamais et peut être stocké dans un endroit frais et sec pendant des centaines de siècles. L'idée d'utiliser l'ADN pour le stockage existe depuis longtemps, jusqu'en 1994. La raison principale est la manière similaire dont les informations sont stockées dans un ordinateur et dans notre ADN, car les deux stockent les plans des informations. Un ordinateur stocke toutes les données sous forme de 0 et de 1 et l'ADN stocke toutes les données d'un organisme vivant en utilisant les quatre bases - thymine (T), guanine (G), adénine (A) et cytosine (C). Par conséquent, l'ADN pourrait être appelé un périphérique de stockage standard, tout comme un ordinateur, si ces bases peuvent être représentées par des 0 (bases A et C) et des 1 (bases T et G). L'ADN est solide et durable, la réflexion la plus simple étant que notre code génétique - le modèle de toutes nos informations stockées dans l'ADN - est efficacement transmis d'une génération à l'autre de manière répétée. Tous les géants du logiciel et du matériel souhaitent utiliser de l'ADN synthétique pour stocker de grandes quantités afin d'atteindre leur objectif de résoudre l'archivage à long terme des données. L'idée est de convertir d'abord les codes informatiques 0 et 1 en code ADN (A, C, T, G), le code ADN converti est ensuite utilisé pour produire des brins synthétiques d'ADN qui peuvent ensuite être mis en chambre froide. Chaque fois que nécessaire, les brins d'ADN peuvent être retirés de la chambre froide et leurs informations décodées à l'aide d'une machine de séquençage d'ADN et la séquence d'ADN est finalement traduite en format informatique binaire de 1 et de 0 pour être lue sur l'ordinateur.

Il a été montré¹ que quelques grammes d'ADN peuvent stocker des quintillions d'octets de données et les garder intacts jusqu'à 2000 ans. Cependant, cette simple compréhension a rencontré quelques défis. Premièrement, il est assez coûteux et extrêmement lent d'écrire des données sur l'ADN, c'est-à-dire la conversion réelle des 0 et des 1 en bases d'ADN (A, T, C, G). Deuxièmement, une fois que les données sont "écrites" sur l'ADN, il est difficile de trouver et de récupérer des fichiers et nécessite une technique appelée séquençage de l'ADN - processus de détermination de l'ordre précis des bases dans une molécule d'ADN - après quoi les données sont décodées en 0s et 1s.

Une étude récente² par des scientifiques de Microsoft Research et de l'Université de Washington ont obtenu un « accès aléatoire » au stockage de l'ADN. L'aspect « accès aléatoire » est très important car cela signifie que l'information peut être transférée vers ou depuis un endroit (généralement une mémoire) dans lequel chaque emplacement, peu importe où dans la séquence, est accessible directement. En utilisant cette technique d'accès aléatoire, les fichiers peuvent être récupérés à partir du stockage d'ADN de manière sélective par rapport à auparavant, lorsqu'une telle récupération nécessitait de séquencer et de décoder un ensemble de données ADN complet pour trouver et extraire les quelques fichiers souhaités. L'importance de « l'accès aléatoire » est encore plus élevée lorsque la quantité de données augmente et devient énorme car elle réduit la quantité de séquençage qui doit être effectuée. C'est la première fois que l'accès aléatoire est montré à une si grande échelle. Les chercheurs ont également développé un algorithme pour décoder et restaurer les données plus efficacement avec une plus grande tolérance aux erreurs de données, ce qui accélère également la procédure de séquençage. Plus de 13 millions d'oligonucléotides d'ADN synthétiques ont été codés dans cette étude qui était des données d'une taille de 200 Mo composées de 35 fichiers (contenant de la vidéo, de l'audio, des images et du texte) d'une taille allant de 29 Ko à 44 Mo. Ces fichiers ont été récupérés individuellement sans erreur. En outre, les auteurs ont conçu de nouveaux algorithmes plus robustes et plus tolérants aux erreurs lors de l'écriture et de la lecture des séquences d'ADN. Cette étude publiée dans Nature Biotechnology dans une avancée majeure montrant un système viable à grande échelle pour le stockage et la récupération d'ADN.

Le système de stockage d'ADN semble très attrayant car il a une densité de données élevée, une grande stabilité et est facile à stocker, mais il présente évidemment de nombreux défis avant de pouvoir être universellement adopté. Peu de facteurs sont le décodage de l'ADN (le séquençage) fastidieux et fastidieux, ainsi que la synthèse de l'ADN. La technique nécessite plus de précision et une couverture plus large. Même si des progrès ont été réalisés dans ce domaine, le format exact dans lequel les données seront stockées à long terme car l'ADN continue d'évoluer. Microsoft s'est engagé à améliorer la production d'ADN synthétique et à relever les défis pour concevoir un système pleinement opérationnel L'ADN système de stockage d'ici 2020.

***

{Vous pouvez lire le document de recherche original en cliquant sur le lien DOI ci-dessous dans la liste des sources citées}

Sources)

1. Erlich Y et Zielinski D 2017. DNA Fountain permet une architecture de stockage robuste et efficace. Science. 355 (6328). https://doi.org/10.1126/science.aaj2038

2. Organick L et al. 2018. Accès aléatoire dans le stockage de données ADN à grande échelle. Biotechnologie naturelle. 36. https://doi.org/10.1038/nbt.4079

L'ADN comme support de stockage de vastes données informatiques : une réalité pour très bientôt ?

Abonnez-vous à notre newsletter

Articles les plus populaires

PICKS EDITOR

MESSAGES POPULAIRES

CATÉGORIE POPULAIRE