La startup en pleine croissance Perplexity, spécialisée dans l’intelligence artificielle générative, est au cœur d’une controverse.
Selon Cloudflare, géant de l’infrastructure web, Perplexity aurait délibérément contourné les protections mises en place par des milliers de sites web afin de continuer à collecter leurs données. Une pratique qui relance le débat sur les méthodes des startups IA pour nourrir leurs modèles.
Lire aussi :
- Apple développe en secret son propre moteur de réponses alimenté par l’IA
- Amazon veut intégrer des publicités dans les conversations avec Alexa+ pour booster ses revenus
Un comportement dissimulé pour échapper aux règles
Cloudflare a publié lundi une étude détaillée affirmant que Perplexity ignore sciemment les fichiers Robots.txt, le standard du web permettant aux sites d’indiquer quelles pages ne doivent pas être explorées ou indexées. Pire encore, selon les chercheurs, l’entreprise aurait utilisé des techniques d’obfuscation pour cacher l’identité de ses bots.
En modifiant à la fois son “user agent” (qui permet d’identifier le visiteur d’un site web) et ses réseaux autonomes (ASN), Perplexity aurait cherché à se faire passer pour un navigateur classique comme Google Chrome sur macOS, afin de ne pas être détectée et bloquée. Cette pratique aurait été observée sur des dizaines de milliers de domaines, avec des millions de requêtes par jour, selon Cloudflare.
Une défense peu convaincante de Perplexity
Face à ces accusations, Perplexity a rejeté en bloc les allégations. Un porte-parole, Jesse Dwyer, a qualifié le billet de blog de Cloudflare de “discours commercial” et affirmé que les captures d’écran fournies ne prouvent aucun accès réel à du contenu. Il a même nié que le robot mentionné soit celui de Perplexity.
Mais Cloudflare maintient sa version, expliquant que ces conclusions proviennent de plaintes directes de ses clients, suivies de tests techniques confirmant que les règles de blocage spécifiques à Perplexity n’étaient pas respectées. L’entreprise a depuis retiré Perplexity de sa liste de bots vérifiés et mis en place de nouveaux systèmes de blocage.
Un historique de controverses sur l’usage des données
Ce n’est pas la première fois que Perplexity est critiquée pour ses pratiques. En 2024, des médias comme Wired l’avaient accusée de plagiat, affirmant que l’IA reproduisait leur contenu sans autorisation ni attribution. Lors d’une conférence, le CEO de Perplexity n’avait pas su définir clairement ce qu’il considérait comme du plagiat, laissant planer le doute sur l’éthique de l’entreprise.
Cloudflare, de son côté, adopte une position ferme contre le scraping non autorisé. Elle propose même désormais un marché pour permettre aux éditeurs de facturer l’accès à leur contenu par les IA, estimant que ces pratiques mettent en péril le modèle économique du web et du journalisme.