Les scientifiques entraînent des modèles de prédiction d’apprentissage automatique sur des ensembles de données massifs et affinent leurs prédictions grâce à l’apprentissage par transfert, qui réutilise les connaissances acquises sur une tâche pour augmenter la puissance d’une tâche connexe.
La présentation de l’antigène par les protéines du complexe majeur d’histocompatibilité (CMH) constitue l’identification de l’appelant du système immunitaire. À la surface des cellules, les CMH présentent des peptides dérivés de composants cellulaires ou de sources étrangères telles que des virus, des bactéries ou des parasites. L’affichage peptidique permet au système immunitaire adaptatif de reconnaître et de répondre à antigènes du soi ou du non-soi.1 Tout comme quelqu’un pourrait soupçonner un appel indésirable provenant d’un numéro inconnu, les cellules T qui voient les complexes peptide immunogène-CMH (pMHC) peuvent alerter la réponse immunitaire en cas d’antigènes suspects. L’activation immunitaire peut alors éliminer les sources de peptides indésirables ou malveillantes.
La présentation peptidique médiée par le CMH est essentielle pour prévenir et combattre les infections, et elle aide les cellules T à intercepter les anomalies, telles que les cellules cancéreuses. Les chercheurs recherchent de nouveaux antigènes spécifiques du cancer, appelés néoantigènes, pour développer des immunothérapies personnalisées, mais cette chasse est souvent entravée par expérimental des goulots d’étranglement tels qu’une faible sensibilité et un faible débit.2 Les biologistes computationnels, tels que Rachel Karchin de l’Université Johns Hopkins, se tournent vers les modèles de prédiction d’apprentissage automatique pour surmonter ces limitations expérimentales.
« Notre groupe a vraiment essayé de faire avancer la prédiction des néoantigènes », a déclaré Karchin. Bien qu’il existe de nombreux outils d’apprentissage automatique permettant de prédire la présentation des antigènes, prédire immunogénicité reste un défi.2 Dans leur dernier ouvrage publié dans Intelligence des machines naturelles,3 Karchin et son équipe se sont associées à des experts en oncologie et en immunologie Kellie Nicole Smith et Valsamo Anagnostoupour développer une approche d’apprentissage par transfert qui prédit quelles séquences de néoantigènes susciteront une réponse immunitaire, en les classant comme néoépitopes.
Voir également « Simplifier la recherche de cibles médicamenteuses»
Leur méthode, appelée BigMHC, implique sept réseaux neuronaux profonds que les chercheurs ont d’abord formés et testés à l’aide d’ensembles de données de spectrométrie de masse de fragments de pMHC, qui indiquent la présentation des néoantigènes. Ils ont ensuite transféré ce que leur modèle de prédiction de présentation avait appris sur les données des tests de réponse aux récepteurs des lymphocytes T (TCR) pour prédire l’immunogénicité. « Parce que tous les néoépitopes immunogènes sont présentés mais que tous les néoantigènes présentés ne sont pas immunogènes, il s’agit d’une tâche de réglage fin », a déclaré le premier auteur Benji Albert, qui était chercheur de premier cycle dans le laboratoire de Karchin lorsqu’il dirigeait ce travail. « Nous n’essayons pas de modifier l’ensemble du réseau, mais seulement les dernières projections. En fait, c’est la même tâche de formation, il s’agit simplement de modifier les dernières couches.
Les chercheurs ont découvert que leur modèle BigMHC permettait de prédire de manière puissante la présentation et l’immunogénicité, mais ils ont également souligné les limites des prédictions basées sur l’apprentissage automatique. « C’est juste une partie de la réponse immunitaire adaptative, cette interaction peptide-CMH-cellule T », a déclaré Karchin. « Pour qu’un lymphocyte T et une cellule tumorale se reconnaissent réellement, il existe de nombreuses autres interactions ligand-récepteur qui sont importantes, et elles doivent être intégrées dans ce type de prédiction. »
Les scientifiques sont également confrontés au défi de la redondance biologique lors du développement de modèles informatiques pour la prédiction des néoantigènes. « La plupart des outils que nous appliquons aujourd’hui en biologie pour faire de l’apprentissage automatique proviennent du domaine informatique », a déclaré Morten Nielsen, biologiste informatique de l’Université technique du Danemark, qui n’a pas participé à cette étude mais qui développe également des outils informatiques pour la prédiction des antigènes, notamment NetMHCpan-4.1, que Karchin et son équipe ont comparé à BigMHC dans leur étude. « Travailler sur des données biologiques est très différent de travailler sur des données générales utilisées en informatique », a déclaré Nielsen.
La manière dont un modèle d’apprentissage automatique apprend et prédit dépend de la manière dont les points de données sont regroupés et partitionnés. Contrairement aux points de données discrets typiques en informatique, les systèmes vivants s’appuient souvent sur des redondances de protéines et d’autres molécules biologiques, ce qui complique le défi de fuite de données en apprentissage automatique.4 Lorsque les ensembles de données de formation et de test contiennent des données qui se chevauchent ou des points de données partageant une similitude significative, les chercheurs peuvent surestimer les performances d’un modèle.
Dans le cas des néoantigènes, chacun spectrométrie de masse-la séquence dérivée que les chercheurs utilisent pour former et tester des modèles d’apprentissage automatique représente un morceau d’antigène et sa molécule de présentation du CMH, appelée HLA chez l’homme. Chaque personne possède un ensemble génétiquement unique de HLA, et chaque HLA reconnaît et présente des peptides pour la reconnaissance des antigènes.2
« Le même peptide peut être observé dans de nombreux contextes », a déclaré Nielsen. « Si vous les prenez comme deux points de données et que vous placez l’un d’eux dans l’ensemble de données de test et l’autre dans la formation, alors la méthode peut apprendre par cœur. Même s’il s’agit en principe de points de données différents parce qu’ils proviennent de HLA différents, ce sont toujours les mêmes points de données car ils obéissent aux mêmes règles, et les règles que vous apprenez de l’un peuvent être appliquées à l’autre.
Voir également « Bougez, protéines ! Explorer les lipides dans l’immunité adaptative»
L’équipe de Karchin a considéré chaque paire unique de pMHC comme un point de données distinct. Ils ont pris soin de dédupliquer les paires pMHC pour s’assurer qu’il n’y avait pas de chevauchement dans les points de données de formation et de test de leur modèle, mais ont noté qu’ils n’avaient pas stratifié leurs données par peptides séparément. « Je pense que le modèle pourrait avoir du potentiel, mais ils doivent le démontrer sur un ensemble de données approprié où ils ont traité ce problème de redondance », a déclaré Nielsen.
Karchin et Albert ont répondu à cette préoccupation. « Bien qu’il n’y ait pas de chevauchement du pMHC, nous avons examiné l’étendue du chevauchement des peptides et avons découvert que sur 937 cas dans l’ensemble de données du test de néoépitope (référence), le BigMHC avait vu 28 peptides négatifs et 2 peptides positifs au cours de sa formation », ont déclaré les chercheurs. par email. « La norme dans le domaine est de considérer une instance unique comme l’ensemble du complexe peptide-CMH, mais même en ignorant les CMH, le chevauchement des peptides dans la formation des néoépitopes BigMHC et dans les ensembles de tests est négligeable. »
Nielsen a également souligné qu’il s’agit d’un défi souvent rencontré avec les modèles de prédiction d’apprentissage automatique en biologie. « Plus de la moitié des articles publiés dans ce domaine de l’immuno-informatique profonde souffrent de ce problème », a-t-il déclaré. « Les gens ne sont pas conscients des défis liés aux données en biologie si vous venez de l’informatique où les données ne sont que des données. »
Malgré ces difficultés croissantes liées à l’application biologique en expansion rapide de l’apprentissage automatique, les outils de prédiction des néoantigènes s’attaquent au problème important de la découverte à grande échelle qui ne peut actuellement être réalisée expérimentalement. BigMHC est le premier outil d’apprentissage par transfert publié pour prédire l’immunogénicité des néoantigènes, ouvrant la porte à de futures méthodes d’apprentissage automatique susceptibles d’améliorer le développement de l’immunothérapie personnalisée.
Les références
- Wieczorek M, et al. Protéines du complexe majeur d’histocompatibilité (CMH) de classe I et de classe II du CMH : plasticité conformationnelle dans la présentation de l’antigène. Immunol avant. 2017;8:292.
- Gfeller D, et al. Considérer les immunopeptidomes pour mieux les prédire. Sémin Immunol. 2023;66:101708.
- Albert BA, et al. Les réseaux neuronaux profonds prédisent la présentation et le transfert des épitopes du complexe majeur d’histocompatibilité de classe I, apprennent l’immunogénicité des néoépitopes. Nat Mach Intell. 2023;5(8):861-72.
- Fang J. Le rôle du biais de déséquilibre des données dans la prédiction du changement de stabilité des protéines lors d’une mutation. PLoS Un. 2023;18(3):e0283727.
Cet article a été mis à jour le 15 décembre 2023 pour clarifier les travaux de Nielsen sur NetMHCpan-4.1.