Amazon enquête sur la perplexité suscitée par les allégations d’abus de scraping

La division cloud d’Amazon a lancé une enquête sur Perplexity AI. La question est de savoir si la startup de recherche IA viole Amazon Web Services règles en supprimant les sites Web qui tentaient de l’en empêcher, a appris WIRED.

Un porte-parole d’AWS, qui a parlé à WIRED à condition de ne pas être nommé, a confirmé l’enquête menée par la société sur Perplexity. WIRED avait déjà trouvé que la startup, qui a support du fonds familial Jeff Bezos et de Nvidia, et a récemment été estimé Le site, évalué à 3 milliards de dollars, semble s’appuyer sur le contenu de sites Web récupérés et dont l’accès a été interdit par le biais du protocole d’exclusion des robots, une norme Web courante. Bien que le protocole d’exclusion des robots ne soit pas juridiquement contraignant, les conditions d’utilisation le sont généralement.

Le protocole d’exclusion des robots Il s’agit d’une norme Web vieille de plusieurs décennies qui consiste à placer un fichier en texte brut (comme wired.com/robots.txt) sur un domaine pour indiquer les pages qui ne doivent pas être consultées par des robots et des robots d’exploration automatisés. Bien que les entreprises qui utilisent des scrapers puissent choisir d’ignorer ce protocole, la plupart l’ont traditionnellement respecté. Le porte-parole d’Amazon a déclaré à WIRED que les clients d’AWS doivent adhérer à la norme robots.txt lors de l’exploration des sites Web.

« Les conditions de service d’AWS interdisent aux clients d’utiliser nos services pour toute activité illégale, et nos clients sont responsables du respect de nos conditions et de toutes les lois applicables », a déclaré le porte-parole dans un communiqué.

L’examen des pratiques de Perplexity suit un rapport du 11 juin de Forbes qui accusait la startup d’avoir volé au moins un de ses articles. Les enquêtes de WIRED ont confirmé cette pratique et trouvé de nouvelles preuves de abus de grattage et plagiat Les ingénieurs de Condé Nast, la société mère de WIRED, bloquent le robot d’indexation de Perplexity sur tous ses sites Web à l’aide d’un fichier robots.txt. Mais WIRED a découvert que la société avait accès à un serveur utilisant une adresse IP non publiée (44.221.181.252) qui a visité les propriétés de Condé Nast au moins des centaines de fois au cours des trois derniers mois, apparemment pour récupérer les sites Web de Condé Nast.

La machine associée à Perplexity semble être engagée dans une exploration généralisée des sites d’information qui interdisent aux robots d’accéder à leur contenu. Des porte-parole du Guardian, de Forbes et du New York Times affirment également avoir détecté l’adresse IP sur ses serveurs à plusieurs reprises.

WIRED a retracé l’adresse IP jusqu’à une machine virtuelle connue sous le nom d’instance Elastic Compute Cloud (EC2) hébergée sur AWS, qui a lancé son enquête après que nous ayons demandé si l’utilisation de l’infrastructure AWS pour supprimer des sites Web qui l’interdisaient violait les conditions de service de l’entreprise.

La semaine dernière, le PDG de Perplexity, Aravind Srinivas, a d’abord répondu à l’enquête de WIRED en déclarant que les questions que nous avons posées à l’entreprise « reflètent une incompréhension profonde et fondamentale du fonctionnement de Perplexity et d’Internet ». Srinivas alors dit à Fast Company Srinivas a déclaré que l’adresse IP secrète observée par WIRED lors de l’exploration des sites Web de Condé Nast et d’un site de test que nous avons créé était exploitée par une société tierce qui effectue des services d’exploration et d’indexation Web. Il a refusé de nommer l’entreprise, invoquant un accord de non-divulgation. Lorsqu’on lui a demandé s’il demanderait à la tierce partie d’arrêter d’explorer WIRED, Srinivas a répondu : « C’est compliqué. »

Amazon enquête sur la perplexité suscitée par les allégations d’abus de scraping

Related Posts