Les chercheurs ont développé le plus grand ensemble de données d’images biologiques jamais adapté à l’apprentissage automatique – ainsi qu’un nouvel outil d’intelligence artificielle basé sur la vision pour en tirer des leçons.
Les résultats de la nouvelle étude élargissent considérablement la portée de ce que les scientifiques peuvent faire en utilisant l’intelligence artificielle pour analyser des images de plantes, d’animaux et de champignons afin de répondre à de nouvelles questions, a déclaré co-auteur de l’étude et professeur adjoint de informatique et ingénierie à l’Ohio State, est la capacité de leur modèle à apprendre des représentations affinées d’images, ou à être capable de faire la différence entre des organismes d’apparence similaire au sein de la même espèce et une espèce imitant leur apparence.
Alors que les modèles généraux de vision par ordinateur sont utiles pour comparer des organismes communs comme les chiens et les loups, des études antérieures ont révélé qu’ils ne peuvent pas prendre en compte les différences subtiles entre deux espèces du même genre végétal.
En raison de sa meilleure compréhension des nuances, a déclaré Su, le modèle présenté dans cet article est également particulièrement qualifié pour déterminer des espèces rares et invisibles.
« BioCLIP couvre bien plus d’espèces et de taxons que les modèles de vision générale auparavant accessibles au public », a-t-il déclaré. « Même s’il n’a jamais vu une certaine espèce auparavant, il peut arriver à une conclusion raisonnable sur la façon dont cet organisme ressemble à celui-ci, alors il est probable que cela le soit. »
À mesure que l’IA continue de progresser, conclut l’étude, les modèles d’apprentissage automatique comme celui-ci pourraient bientôt devenir des outils importants pour percer des mystères biologiques qui prendraient autrement beaucoup plus de temps à comprendre. Et bien que cette première itération de BioCLIP reposait largement sur des images et des informations provenant de plateformes scientifiques citoyennes, Stevens a déclaré que les futurs modèles pourraient être améliorés en incluant davantage d’images et de données provenant de laboratoires scientifiques et de musées. Étant donné que les laboratoires sont en mesure de collecter des descriptions textuelles plus riches d’espèces qui détaillent leurs caractéristiques morphologiques et d’autres différences subtiles entre des espèces étroitement apparentées, ces ressources fourniront une multitude d’informations importantes pour le modèle d’IA.
En outre, de nombreux laboratoires scientifiques disposent d’informations sur les fossiles d’espèces disparues, ce qui, selon l’équipe, élargira également l’utilité du modèle.
« Les taxonomies changent constamment à mesure que nous mettons à jour les noms et les nouvelles espèces, donc une chose que nous aimerions faire à l’avenir est de tirer davantage parti des travaux existants sur la manière de les intégrer », a-t-il déclaré. « En IA, lorsque vous injectez plus de données sur un problème, vous obtenez de meilleurs résultats. Je pense donc qu’il existe une version plus grande que nous pouvons continuer à former dans un modèle plus grand et plus solide. »
L’étude a été soutenue par la National Science Foundation et l’Ohio Supercomputer Center. Parmi les autres co-auteurs de l’État de l’Ohio figurent Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Tanya Berger-Wolf et Wei-Lun Chao. Li Dong de Microsoft Research, Wasila M Dahdul de l’Université de Californie à Irvine et Charles Stewart du Rensselaer Polytechnic Institute ont également contribué.
En rapport
Le contenu de ce communiqué de presse provient de l’organisme de recherche d’origine. Le contenu peut être modifié en termes de style et de longueur. Vouloir plus? Inscrivez-vous à notre e-mail quotidien.