Par MIKE MAGEE
Sans surprise, mon candidat pour le « mot de l’année » implique l’IA, et plus particulièrement « le langage de la biologie humaine ».
Comme Eliezer Yudkowski, le fondateur du Institut de recherche sur l’intelligence artificielle et inventeur du terme « IA conviviale » indiqué dans Forbes :
« Tout ce qui pourrait donner naissance à une intelligence plus intelligente que l’humain – sous la forme d’intelligence artificielle, d’interfaces cerveau-ordinateur ou d’amélioration de l’intelligence humaine basée sur les neurosciences – remporte haut la main comme étant celui qui contribue le plus à changer le monde. Rien d’autre n’est dans la même ligue.
La façon la plus simple de commencer est peut-être de dire que le « faux-sens » est une forme de faux langage ou de s’exprimer avec des mots « de manière incorrecte ou imparfaite ». Mais dans le cas du « faux-sens », la langue n’est pas faite de mots, où (par exemple) le sens d’une phrase serait perturbé par une faute d’orthographe ou par le choix d’un mauvais mot.
Avec « faux-sens », nous parlons d’un langage différent – le langage de l’ADN et des protéines. Plus précisément, l’accent est mis sur la façon dont les quatre unités de base ou nucléotides qui fournissent le squelette d’un brin d’ADN communiquent des instructions pour chacun des 20 acides aminés différents sous la forme de 3 codes « lettres » ou « codons ».
Dans ce langage protéique, il y a quatre nucléotides. Chaque « nucléotide » (adénine, quinine, cytosine, thymine) est une molécule en trois parties qui comprend une nucléase, un sucre à 5 carbones et un groupe phosphate. Les structures chimiques uniques des quatre nucléotides sont conçues pour créer deux « paires de bases ». L’adénine est liée à la thymine par une double liaison hydrogène, et la cytosine est liée à la guanine par une triple liaison hydrogène. Les liaisons AT et CG « atteignent » efficacement deux brins d’ADN pour les relier dans la structure familière de « double hélice ». Les brins gagnent en longueur en utilisant leurs molécules de sucre et de phosphate situées en haut et en bas de chaque nucléoside pour se joindre les unes aux autres, augmentant ainsi la longueur des brins.
Les A, les T, les C et les G sont les points de départ d’un code. Une chaîne de trois, par exemple ATG, est appelée « codon », qui représente dans ce cas l’un des 20 acides aminés communs à toutes les formes de vie, la méthionine. Il existe 64 codons différents – 61 dirigent l’ajout en chaîne de l’un des 20 acides aminés (certains ont des doublons), et les 3 codons restants servent de « codons d’arrêt » pour terminer une chaîne protéique.
L’ARN messager (ARNm) transporte une image miroir de la chaîne de bases nucléotidiques codée du noyau cellulaire aux ribosomes dans le cytoplasme de la cellule. Les codons appellent ensuite chaque acide aminé qui, une fois liés, forment la protéine. La structure de la protéine est définie par les acides aminés spécifiques inclus et leur ordre d’apparition. Les chaînes de protéines se replient spontanément et forment ainsi une structure tridimensionnelle qui affecte leurs fonctions biologiques.
Une erreur dans une seule lettre d’un codon peut entraîner un message erroné ou un « faux-sens ». En 2018, Alphabet (anciennement Google) a lancé AlphaFold, un système d’intelligence artificielle capable de prédire la structure des protéines à partir de bases de données de codons d’ADN, avec la promesse d’accélérer la découverte de médicaments. Cinq ans plus tard, la société a publié AlphaMissense, en exploitant les bases de données AlphaFold, pour apprendre le nouveau « langage protéique » comme avec le produit ChatGPT de grand modèle de langage (LLM). Le but ultime: prédire où « des mutations pathogènes sont susceptibles de se produire ».
Un travail en cours, AlphaMissense a déjà créé un catalogue d’éventuelles mutations faux-sens chez l’humain, déclarant que 57 % n’ont aucun effet nocif et 32 % pourraient être liées à une pathologie humaine (encore à déterminer). L’entreprise a open source une grande partie de sa base de données, et espère que cela accélérera « les analyses des effets des mutations de l’ADN et… la recherche sur les maladies rares ».
Les chiffres ne sont pas petits. Croyez-le ou non, AI affirme que le génome humain composé de 46 chromosomes héberge théoriquement 71 millions d’événements faux-sens possibles qui attendent de se produire. Jusqu’à présent, ils n’en ont identifié que 4 millions. Pour les humains d’aujourd’hui, le génome moyen ne comprend que 9 000 de ces erreurs, dont la plupart n’ont aucune incidence sur la vie ou l’intégrité physique.
Mais parfois, ils le font. Prends pour exemple L’anémie falciforme. Cette affection douloureuse et potentiellement mortelle est le résultat d’une erreur de codon unique (GTG au lieu de GAG) sur la chaîne nucléosidique codée pour créer la protéine hémoglobine. Cette petite erreur provoque le remplacement du 6ème acide aminé de la chaîne d’hémoglobine en évolution, l’acide glutamique, par l’acide aminé valine. Sachant cela, les chercheurs ont désormais utilisé l’outil d’édition génétique CRISPR (lauréat du Prix Nobel de chimie en 2020) à corriger l’erreur grâce à une thérapie par cellules souches autologues.
Comme Université de Michigan Le physicien Stephen Hsu a déclaré : « Le but ici est que vous me donniez une modification à une protéine, et au lieu de prédire la forme de la protéine, je vous dis : est-ce mauvais pour l’humain qui la possède ? Pour la plupart de ces retournements, nous n’avons tout simplement aucune idée s’ils provoquent des maladies.
Patrick Malonemédecin chercheur à Entreprises KdT, voit l’IA en marche. Selon lui, il s’agit « d’un exemple de l’un des développements méthodologiques récents les plus importants en matière d’IA. Le concept est que l’IA affinée est capable de tirer parti des acquis antérieurs. Le cadre de pré-formation est particulièrement utile en biologie computationnelle, où nous sommes souvent limités par l’accès aux données à une échelle suffisante.
AlphaMissense les créateurs pensent que leurs prédictions pourraient :
« Illuminez les effets moléculaires des variantes sur la fonction des protéines. »
« Contribuer à l’identification de mutations faux-sens pathogènes et de gènes pathogènes jusqu’alors inconnus. »
«Augmenter le rendement diagnostique des maladies génétiques rares.»
Et bien sûr, cette mise en garde : la capacité croissante à définir et à créer la vie comporte le potentiel de modifier la vie. Autrement dit, ce que nous créons finira par changer qui nous sommes et la façon dont nous nous comportons les uns envers les autres.
Mike Magee MD est un historien médical et un contributeur régulier du THCB. Il est l’auteur de CODE BLEU : À l’intérieur du complexe industriel médical américain (Bosquet/2020)