Big Média
Décryptages
L’ADN, le futur durable du stockage de données numériques ?

L’ADN, le futur durable du stockage de données numériques ?

À l’heure où le volume de nos données numériques ne cesse de croître, le modèle de stockage dans les data centers atteint ses limites. Chercheurs et startups se penchent sur un autre système de conservation plus dense, stable et écologique : l’ADN synthétique.

02 mai 2023
Temps de lecture: 4 - 5 min

Soixante-quatre zettaoctets, soit plus de soixante-dix milliards de gigaoctets. C’est le volume estimé de données numériques stockées dans le monde à l’heure actuelle – un chiffre amené à tripler d’ici 2025. Derrière cette augmentation exponentielle : la transformation digitale de la société, les progrès technologiques, le développement de l’Intelligence Artificielle et des objets connectés. Ces données sont conservées dans 8 millions de data centers à travers le monde, en grande majorité sur des bandes magnétiques. Or ces supports restent fragiles, avec une durée de vie limitée, et posent de nombreux problèmes. À la fois en termes de volumes, puisqu’en 2040, les data centers devraient constituer 1 millième de la surface émergée du globe, soit la taille d’un pays. Mais également pour l’environnement : ces centres représentent 2% de la consommation mondiale d’électricité, avec une empreinte carbone d'ores et déjà supérieure à l’aviation civile.

Ce modèle atteint aujourd’hui ses limites et ne parvient plus à répondre à la demande, qui explose. Mais existe-t-il un autre support susceptible de conserver durablement ce nombre grandissant de données ? Certains chercheurs pensent avoir trouvé la réponse dans un système de stockage d’informations, qui n’a pas été inventé par l’homme et qui pourtant se perfectionne depuis 4 milliards d'années : l’ADN.

Une molécule conservée sans apport d’énergie

L’ADN présente en effet de nombreux avantages à même de répondre aux problématiques posées par les data centers. « Cette molécule ultra dense – 1 gramme d’ADN peut contenir 450 millions To – est à la fois stable et pérenne », détaille Stéphane Lemaire, cofondateur de Biomemory et directeur de recherche au CNRS. « Stockée dans un environnement favorable, sa durée de vie peut dépasser les 100 000 ans, et une fois synthétisée, elle peut être conservée sans apport d’énergie, donc sans émettre de carbone. »

Par ailleurs, environ 60 à 80% des données stockées dans les data centers sont des archives, tels que des documents légaux, des informations scientifiques ou encore des copies de sauvegarde. En somme, des data qui ne sont jamais lues mais conservées « au cas où ». L’ADN serait ainsi un candidat idéal pour stocker ce type de données qui demandent peu d’opérations d’encodage, de décodage et de lecture.

Une approche biologique qui « exploite le potentiel du vivant »

Mais comment procède-t-on exactement pour stocker des données dans de l’ADN ? « Il y a plusieurs façons de faire, mais c’est en fait relativement simple », assure Stéphane Lemaire. Le processus passe par plusieurs étapes : coder un fichier binaire (succession de 0 et 1) en quaternaire (les quatres lettres de l’ADN – A, T, C et G) et écrire la molécule d’ADN qui correspond à cette séquence avant de la stocker. Pour la relire, cette molécule est passée dans un séquenceur, afin de reconvertir le fichier et le récupérer.

Si les technologies de lecture de l’ADN sont déjà matures, et ce, grâce aux avancées de la médecine moderne, c’est surtout la phase d’écriture qui concentre les efforts des chercheurs. Ils se penchent, pour ce faire, sur plusieurs approches : chimique, enzymatique ou biologique, qui ont chacune leurs contraintes. C’est cette dernière méthode que Biomemory, startup spécialisée dans l’écriture et le stockage de données numériques dans l’ADN fondée en 2021, a décidé de privilégier. « Notre vision c’est d’exploiter le potentiel du vivant, qui a déjà développé les technologies pour stocker des informations dans l’ADN, les lire, les éditer, corriger les erreurs, etc. », résume le cofondateur de la startup. Une approche bio-inspirée utilisant des bactéries qui, selon lui, permettra notamment de se passer des solvants polluants des synthèses chimiques.

Passage à l’échelle industrielle

Quelle que ce soit l’approche choisie, il reste toutefois un challenge majeur à relever afin de commercialiser cette solution, comme l’explique Marc Antonini, directeur de recherche au CNRS à I3S (CNRS-Université Côte d'Azur) : « La preuve de concept laboratoire existe, c’est le passage à l’échelle industrielle sur lequel il faut maintenant concentrer les efforts ».

Ce travail porte notamment sur la robustesse du système et la vitesse des différentes opérations, ainsi que sur des problématiques d’automatisation et de miniaturisation. Et ce, avec un objectif bien précis : réduire les coûts. « On tourne actuellement à 1 000 dollars le mégaoctet, ce qui n’est évidemment pas économiquement viable pour du stockage à grande échelle », concède Marc Antonini, qui prédit toutefois que le développement de nouvelles applications industrielles de ce mode de stockage fera baisser les coûts à terme.

Le chercheur, qui a cofondé la startup PearCode en octobre 2022, prévoit que les systèmes ADN seront « concurrentiels aux disques durs en termes d’efficacité, de rapidité et de coût et aptes à être appliqués aux data centers d’ici 2030 ». Même constat pour Biomemory, qui espère, d’ici cet horizon, commercialiser son « DNA drive » sur lequel elle travaille actuellement. D’une capacité totale illimitée, ce disque dur sera à terme capable de lire, écrire et copier l’ADN de manière ultra rapide. « L’un de nos objectifs est de miniaturiser tout ce que l’on fait en laboratoire, à l’échelle du picolitre, pour proposer cette solution clé en main et autonome qui pourra se brancher directement à une infrastructure existante. Nous espérons pouvoir réduire les coûts à 1 dollar le téraoctet », détaille Stéphane Lemaire, cofondateur de la startup qui a levé 5 millions d'euros en 2022.

Un enjeu de souveraineté pour la France et l’Europe

À l’échelle mondiale, ce type de stockage novateur reste peu développé, ne comptant que quelques entreprises spécialisées dans sa mise à l’échelle industrielle – avec en tête le leader américain Twist Bioscience. Mais cette approche a le potentiel pour devenir une industrie à part entière, « notamment en France et en Europe, où toutes les compétences sont réunies pour développer une solution souveraine face aux États-Unis et à la Chine », assure Marc Antonini.

Les Etats-Unis ont en effet d’ores et déjà financé deux programmes de recherche sur le sujet – sans compter les investissements des entreprises privées, comme Microsoft qui s’est allié à Western Digital et Twist Bioscience pour fonder la DNA Data Storage Alliance. Mais l’Europe a aussi pris conscience de cet enjeu de souveraineté : le projet OligoArchive, qui s’est terminé fin mars 2023, a réuni pendant quatre ans plusieurs institutions dans le but de développer de nouvelles solutions de compression de codage des données sur ADN. Quant à la France, elle a lancé en 2022 MoleculArXiv, un programme et équipement prioritaire de recherche (PEPR) de sept ans doté de 20 millions d’euros, qui fédère une vingtaine de laboratoires de recherche sur ce sujet.

Selon les deux experts, le nombre d’acteurs dans ce secteur devrait continuer à croître dans les années à venir. « Le marché du stockage est gigantesque et la demande est telle qu’il va falloir plus d’entreprises pour répondre à ces besoins. Il y a de la place pour toute une industrie », affirme Stéphane Lemaire. Pour Marc Antonini, il n’y a aucun doute, ce nouveau mode de stockage va bientôt « rentrer dans les usages » et s’imposer comme « l’une des meilleures solutions pour diminuer l’empreinte carbone du numérique ».