Plus de 170 images et informations personnelles d’enfants du Brésil ont été récupérées par un ensemble de données open source à leur insu et sans leur consentement, et utilisé pour entraîner l’IArevendique un nouveau rapport de Human Rights Watch publié lundi.
Les images ont été extraites de contenus publiés aussi récemment que 2023 et dès le milieu des années 1990, selon le rapport, bien avant qu’un internaute puisse anticiper que leur contenu pourrait être utilisé pour entraîner l’IA. Human Rights Watch affirme que les détails personnels de ces enfants, ainsi que des liens vers leurs photographies, ont été inclus dans LAION-5B, un ensemble de données qui a été une source populaire de données de formation pour les startups d’IA.
« Leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée à ces ensembles de données. Ensuite, ces outils d’IA sont formés sur ces données et peuvent donc créer des images réalistes d’enfants », explique Hye Jung Han, chercheur en droits de l’enfant et technologie à Human Rights Watch et chercheur qui a trouvé ces images. « La technologie est développée de telle manière que tout enfant qui a une photo ou une vidéo d’eux-mêmes en ligne court désormais un risque, car tout acteur malveillant pourrait prendre cette photo, puis utiliser ces outils pour le manipuler comme bon lui semble. »
LAION-5B est basé sur Common Crawl, un référentiel de données créé en grattant le Web et mis à la disposition des chercheurs, et a été utilisé pour entraîner plusieurs modèles d’IA, notamment l’outil de génération d’images Stable Diffusion de Stability AI. Créé par l’organisation allemande à but non lucratif LAION, l’ensemble de données est librement accessible et comprend désormais plus de 5,85 milliards de paires d’images et de légendes, selon son site Internet.
Les images d’enfants trouvées par les chercheurs provenaient de blogs de mamans et d’autres blogs personnels, de maternité ou de parents, ainsi que de photos de vidéos YouTube avec un faible nombre de vues, apparemment téléchargées pour être partagées avec la famille et les amis.
« Rien qu’en regardant le contexte dans lequel ils ont été affectés, ils bénéficiaient d’une attente et d’une certaine mesure de confidentialité », explique Hye. « La plupart de ces images n’étaient pas disponibles en ligne grâce à une recherche d’images inversée. »
Le porte-parole de LAION, Nate Tyler, affirme que l’organisation a déjà pris des mesures. « LAION-5B a été supprimé en réponse à un rapport de Stanford qui a trouvé des liens dans l’ensemble de données pointant vers du contenu illégal sur le Web public », dit-il, ajoutant que l’organisation travaille actuellement avec « Internet Watch Foundation, le Centre canadien pour l’enfance ». Protection, Stanford et Human Rights Watch pour supprimer toutes les références connues à des contenus illégaux.
YouTube conditions d’utilisation ne permettre le grattage que dans certaines circonstances ; ces cas semblent aller à l’encontre de ces politiques. « Nous avons clairement indiqué que la suppression non autorisée de contenu YouTube constitue une violation de nos conditions d’utilisation », a déclaré le porte-parole de YouTube, Jack Maon, « et nous continuons de prendre des mesures contre ce type d’abus ».
En décembre, des chercheurs de l’Université de Stanford ont découvert que les données de formation à l’IA collectées par LAION-5B contenaient du matériel d’abus sexuel sur des enfants. Le problème des deepfakes explicites est en augmentation, même parmi les élèves des écoles américaines, où ils sont utilisés intimider ses camarades de classe, en particulier les filles. Hye craint qu’au-delà de l’utilisation de photos d’enfants pour générer du CSAM, la base de données puisse révéler des informations potentiellement sensibles, telles que des emplacements ou des données médicales. En 2022, un artiste basé aux États-Unis a trouvé sa propre image dans l’ensemble de données LAIONet j’ai réalisé que c’était à partir de son dossier médical privé.