Pendant elle conférence du prix Nobel de chimie en 2018, Frances Arnold a déclaré : « Aujourd’hui, nous pouvons, à toutes fins pratiques, lire, écrire et éditer n’importe quelle séquence d’ADN, mais nous ne pouvons pas la composer. » Ce n’est plus vrai.
Depuis, la science et la technologie ont tellement progressé que l’intelligence artificielle a appris à composer l’ADN, et grâce aux bactéries génétiquement modifiées, les scientifiques sont en passe de concevoir et de fabriquer des protéines sur mesure.
L’objectif est qu’avec les talents de conception de l’IA et les capacités d’ingénierie de l’édition génétique, les scientifiques puissent modifier les bactéries pour qu’elles agissent comme des mini-usines produisant de nouvelles protéines capables de réduire les gaz à effet de serre, de digérer les plastiques ou d’agir comme des pesticides spécifiques à certaines espèces.
Comme un professeur de chimie et chimiste informaticien qui étudie les sciences moléculaires et la chimie environnementale, je crois que les progrès de l’IA et de l’édition génétique en font une possibilité réaliste.
Séquençage des gènes – Lire les recettes de la vie
Tous les êtres vivants contiennent du matériel génétique – ADN et ARN – qui fournit les informations héréditaires nécessaires pour se répliquer et fabriquer des protéines. Les protéines constituent 75 % du poids sec humain. Ils constituent les muscles, les enzymes, les hormones, le sang, les cheveux et le cartilage. Comprendre les protéines signifie comprendre une grande partie de la biologie. L’ordre des bases nucléotidiques dans l’ADN, ou l’ARN dans certains virus, code cette information, et les technologies de séquençage génomique identifient l’ordre de ces bases.
Le Projet du génome humain était un effort international qui a séquencé l’intégralité du génome humain de 1990 à 2003. Grâce à l’amélioration rapide des technologies, il a fallu sept ans pour séquencer le premier 1 % du génome et sept autres années pour les 99 % restants. En 2003, les scientifiques disposaient de la séquence complète des 3 milliards de paires de bases nucléotidiques codant pour 20 000 à 25 000 gènes du génome humain.
Cependant, comprendre les fonctions de la plupart des protéines et corriger leurs dysfonctionnements reste un défi.
L’IA apprend les protéines
La forme de chaque protéine est essentielle à sa fonction et est déterminée par la séquence de ses acides aminés, elle-même déterminée par la séquence nucléotidique du gène. Les protéines mal repliées ont une forme incorrecte et peut provoquer des maladies comme les maladies neurodégénératives, la mucoviscidose et le diabète de type 2. Comprendre ces maladies et développer des traitements nécessite une connaissance des formes des protéines.
Avant 2016, la seule façon de déterminer la forme d’une protéine était de Cristallographie aux rayons X, une technique de laboratoire qui utilise la diffraction des rayons X par des monocristaux pour déterminer la disposition précise des atomes et des molécules en trois dimensions dans une molécule. À cette époque, la structure d’environ 200 000 protéines avait été déterminée par cristallographie, ce qui coûtait des milliards de dollars.
AlphaFold, un programme d’apprentissage automatique, a utilisé ces structures cristallines comme ensemble d’entraînement pour déterminer la forme des protéines à partir de leurs séquences nucléotidiques. Et en moins d’un an, le programme calculé les structures protéiques des 214 millions de gènes qui ont été séquencés et publiés. Les structures protéiques déterminées par AlphaFold ont toutes été libérées dans un base de données disponible gratuitement.
Pour lutter efficacement contre les maladies non infectieuses et concevoir de nouveaux médicaments, les scientifiques ont besoin de connaissances plus détaillées sur la manière dont les protéines, en particulier les enzymes, se lient aux petites molécules. Les enzymes sont des catalyseurs protéiques qui permettent et régulent les réactions biochimiques.
Le système d’IA AlphaFold3 permet aux scientifiques de créer des modèles complexes et détaillés de la machinerie moléculaire de la vie.
AlphaFold3, publié le 8 mai 2024, peut prédire la forme des protéines et les emplacements où les petites molécules peuvent se lier à ces protéines. Dans conception rationnelle de médicaments, les médicaments sont conçus pour se lier aux protéines impliquées dans une voie liée à la maladie traitée. Les médicaments à petites molécules se lient au site de liaison de la protéine et modulent son activité, influençant ainsi l’évolution de la maladie. En étant capable de prédire les sites de liaison aux protéines, AlphaFold3 améliorera les capacités de développement de médicaments des chercheurs.
AI + CRISPR = Composer de nouvelles protéines
Vers 2015, le développement de Technologie CRISPR a révolutionné l’édition génétique. CRISPR peut être utilisé pour rechercher une partie spécifique d’un gène, la modifier ou la supprimer, faire en sorte que la cellule exprime plus ou moins son produit génique, ou même ajouter un gène totalement étranger à sa place.
En 2020, Jennifer Doudna et Emmanuelle Charpentier ont reçu le prix Nobel de chimie »pour le développement d’une méthode (CRISPR) d’édition du génome.» Avec CRISPR, l’édition génétique, qui prenait autrefois des années et était spécifique à une espèce, coûteuse et laborieuse, peut désormais être réalisée en quelques jours et pour une fraction du coût.
L’IA et le génie génétique progressent rapidement. Ce qui était autrefois compliqué et coûteux est désormais une routine. Pour l’avenir, le rêve est celui de protéines sur mesure conçues et produites par une combinaison d’apprentissage automatique et de bactéries modifiées par CRISPR. L’IA concevrait les protéines et les bactéries modifiées à l’aide de CRISPR produiraient les protéines. Les enzymes produites de cette manière pourraient potentiellement respirer du dioxyde de carbone et du méthane tout en expirant des matières premières organiques, ou décomposer les plastiques pour en faire des substituts au béton.
Je pense que ces ambitions ne sont pas irréalistes, étant donné que les organismes génétiquement modifiés représentent déjà 2% de l’économie américaine dans l’agriculture et la pharmacie.
Deux groupes ont créé des enzymes fonctionnelles à partir de zéro, conçues par différents systèmes d’IA. David Boulangerc’est Institut pour la conception de protéines à l’Université de Washington a conçu une nouvelle stratégie de conception de protéines basée sur l’apprentissage profond qu’elle a baptisée «hallucination familiale« , qu’ils avaient l’habitude de fabriquer une enzyme électroluminescente unique. Pendant ce temps, une startup de biotechnologie Couranta utilisé une IA formée à partir de la somme de toutes les connaissances CRISPR-Cas concevoir de nouveaux éditeurs de génome fonctionnels.
Si l’IA peut apprendre à créer de nouveaux systèmes CRISPR ainsi que des enzymes bioluminescentes qui fonctionnent et n’ont jamais été vues sur Terre, on peut espérer que l’association de CRISPR avec l’IA pourra être utilisée pour concevoir d’autres nouvelles enzymes sur mesure. Bien que la combinaison CRISPR-IA en soit encore à ses balbutiements, une fois arrivée à maturité, elle sera probablement très bénéfique et pourrait même aider le monde à lutter contre le changement climatique.
Il est toutefois important de se rappeler que plus une technologie est puissante, plus les risques sont grands ça pose. De plus, les humains ont pas eu beaucoup de succès en ingénierie en raison de la complexité et de l’interdépendance des systèmes naturels, ce qui entraîne souvent des conséquences inattendues.
Marc Zimmer est professeur de chimie au Connecticut College. Cet article est republié à partir de La conversation sous un Licence Creative Commons. Lis le article original.