Par MIKE MAGEE
Si vous suivez mon commentaire hebdomadaire sur HealthCommentary.org ou THCB, vous avez peut-être remarqué au cours des 6 derniers mois que je semble être obsédé par l’intrusion de l’IAM, ou intelligence artificielle, dans le secteur de la santé.
Alors aujourd’hui, permettez-moi de partager un secret. Ma plongée en profondeur fait partie d’une longue préparation pour une conférence (« AI Meets Medicine ») que je vais donner ce vendredi 17 mai à 14h30 à Hartford, CT. Si vous êtes dans le coin, il est ouvert au public. Vous pouvez vous inscrire pour y assister ICI.
Cette image est l’une des 80 diapositives que je couvrirai au cours de la présentation de 90 minutes sur un sujet massif, révolutionnaire, transformationnel et complexe. C’est aussi une cible mouvante, comme l’illustre la dernière ligne au-dessus de laquelle j’ai ajouté ce matin.
L’ajout a été forcé par Mira Murati, Le directeur de la technologie d’OpenAI, qui a annoncé hier depuis son perchoir à San Francisco : « Nous regardons l’avenir de l’interaction entre nous et les machines ».
La nouvelle application, conçue à la fois pour les ordinateurs et les téléphones intelligents, est GPT-4o. Contrairement aux anciens membres de la famille GPT, qui se distinguaient par leurs capacités génératives d’auto-apprentissage et leur soif insatiable de données, cette nouvelle application n’est pas tellement axée sur l’espace de recherche, mais crée plutôt un « assistant personnel » rapide et efficace. maîtrisant le texte, l’audio et l’image (« multimodal »).
OpenAI dit il s’agit « d’un pas vers une interaction homme-machine beaucoup plus naturelle » et est capable de répondre à votre demande « avec un délai moyen de 320 millisecondes (délai), similaire à un délai moyen de 320 millisecondes (délai) ». temps de réponse humaine.» Et ils ne tardent pas à renforcer cela ce n’est que le début, déclarant ce matin sur leur site Web : « Avec GPT-4o, nous avons formé un nouveau modèle unique de bout en bout pour le texte, la vision et l’audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. Étant donné que GPT-4o est notre premier modèle combinant toutes ces modalités, nous ne faisons qu’effleurer la surface de l’exploration de ce que le modèle peut faire et de ses limites.
Il est utile de rappeler que tout ce mouvement de l’IA, en médecine et dans tous les autres secteurs, concerne le langage. Et comme experts en langue rappelle-t-on, « le langage et la parole dans le monde académique sont des domaines complexes qui vont au-delà de la paléoanthropologie et de la primatologie », nécessitant une connaissance pratique de « la phonétique, l’anatomie, l’acoustique et le développement humain, la syntaxe, le lexique, la gestuelle, les représentations phonologiques, l’organisation syllabique, la parole ». Perception et contrôle neuromusculaire.
La notion de communication instantanée et multimodale avec les machines semble née de nulle part, mais est en réalité le produit de près d’un siècle de découvertes imaginatives, créatives et disciplinées de la part des technologues de l’information et des experts en parole humaine, qui n’ont que récemment pleinement convergé les uns avec les autres. En tant qu’archéologue paléolithique, Paul Pettit, Ph.D., Le dit : « Il existe désormais un large soutien en faveur de l’idée selon laquelle la créativité symbolique faisait partie de notre répertoire cognitif lorsque nous avons commencé à nous disperser hors d’Afrique. » C’est-à-dire : « Votre imagerie informatique multimodale fait partie d’une conversation commencée il y a longtemps dans d’anciens dessins rupestres. »
Tout au long de l’histoire, la langue a été un accélérateur d’espèces, un pouvoir secret qui nous a permis de dominer et de nous élever rapidement (pour le meilleur ou pour le pire) jusqu’à la position de « maîtres de l’univers ». En résumé : nous, les humains, sommes passés « du bavardage à la concordance puis à l’inclusivité… »
GPT-4o n’est que la dernière avancée en date, mais elle est remarquable non pas parce qu’elle met l’accent sur la capacité « d’auto-apprentissage » que le New York Times a qualifiée à juste titre de « passionnante et effrayante », mais parce qu’elle est axée sur la rapidité et l’efficacité de l’effort. pour rivaliser désormais sur un pied d’égalité avec le langage humain à humain. Comme l’indique OpenAI, « GPT-4o est 2 fois plus rapide, moitié moins cher, et a des limites de débit (de trafic) 5 fois plus élevées que GPT-4. »
Praticité et convivialité sont les mots que j’ai choisis. Selon les termes de l’entreprise : « Aujourd’hui, GPT-4o est bien meilleur que n’importe quel modèle existant pour comprendre et discuter des images que vous partagez. Par exemple, vous pouvez désormais prendre une photo d’un menu dans une autre langue et parler à GPT-4o pour la traduire, en savoir plus sur l’histoire et la signification de l’aliment et obtenir des recommandations.
Dans ma conférence, je couvrirai un grand nombre de sujets, en essayant de fournir un contexte historique, une nomenclature pertinente et des définitions de nouveaux termes, ainsi que le grand potentiel (à la fois bon et mauvais) d’applications dans les soins de santé. Comme beaucoup d’autres l’ont dit : « C’est compliqué ! »
Mais comme le montre clairement l’annonce faite hier à San Francisco, l’interface homme-machine est devenue considérablement floue. Ou comme Mira Murati dites-le : « Vous voulez vivre l’expérience que nous vivons – où nous pouvons avoir ce dialogue très naturel. »
Mike Magee MD est un historien médical et un contributeur régulier au THCB. Il est l’auteur de CODE BLEU : À l’intérieur du complexe médico-industriel (Bosquet/2020)