Perplexity accusée par Cloudflare de scraper illégalement des sites protégés par Robots.txt

La startup en pleine croissance Perplexity, spécialisée dans l’intelligence artificielle générative, est au cœur d’une controverse.

Selon Cloudflare, géant de l’infrastructure web, Perplexity aurait délibérément contourné les protections mises en place par des milliers de sites web afin de continuer à collecter leurs données. Une pratique qui relance le débat sur les méthodes des startups IA pour nourrir leurs modèles.

Un comportement dissimulé pour échapper aux règles

Cloudflare a publié lundi une étude détaillée affirmant que Perplexity ignore sciemment les fichiers Robots.txt, le standard du web permettant aux sites d’indiquer quelles pages ne doivent pas être explorées ou indexées. Pire encore, selon les chercheurs, l’entreprise aurait utilisé des techniques d’obfuscation pour cacher l’identité de ses bots.

En modifiant à la fois son “user agent” (qui permet d’identifier le visiteur d’un site web) et ses réseaux autonomes (ASN), Perplexity aurait cherché à se faire passer pour un navigateur classique comme Google Chrome sur macOS, afin de ne pas être détectée et bloquée. Cette pratique aurait été observée sur des dizaines de milliers de domaines, avec des millions de requêtes par jour, selon Cloudflare.

Comment le marché Pay per Crawl de Cloudflare pourrait-il transformer la monétisation des sites web face à l’essor des intelligences artificielles ?

Une défense peu convaincante de Perplexity

Face à ces accusations, Perplexity a rejeté en bloc les allégations. Un porte-parole, Jesse Dwyer, a qualifié le billet de blog de Cloudflare de “discours commercial” et affirmé que les captures d’écran fournies ne prouvent aucun accès réel à du contenu. Il a même nié que le robot mentionné soit celui de Perplexity.

Mais Cloudflare maintient sa version, expliquant que ces conclusions proviennent de plaintes directes de ses clients, suivies de tests techniques confirmant que les règles de blocage spécifiques à Perplexity n’étaient pas respectées. L’entreprise a depuis retiré Perplexity de sa liste de bots vérifiés et mis en place de nouveaux systèmes de blocage.

Un historique de controverses sur l’usage des données

Ce n’est pas la première fois que Perplexity est critiquée pour ses pratiques. En 2024, des médias comme Wired l’avaient accusée de plagiat, affirmant que l’IA reproduisait leur contenu sans autorisation ni attribution. Lors d’une conférence, le CEO de Perplexity n’avait pas su définir clairement ce qu’il considérait comme du plagiat, laissant planer le doute sur l’éthique de l’entreprise.

Pourquoi certains chercheurs ont-ils recours à des prompts cachés pour influencer les évaluations par leurs pairs ?

Cloudflare, de son côté, adopte une position ferme contre le scraping non autorisé. Elle propose même désormais un marché pour permettre aux éditeurs de facturer l’accès à leur contenu par les IA, estimant que ces pratiques mettent en péril le modèle économique du web et du journalisme.

Perplexity accusée par Cloudflare de scraper illégalement des sites protégés par Robots.txt

Un comportement dissimulé pour échapper aux règles

Une défense peu convaincante de Perplexity

Un historique de controverses sur l’usage des données

Partager cet article

Actualités

Monopoly GO : Liens dés gratuit 19 Mars 2026

Pourquoi des millions de joueurs de GTA 5 ne pourront-ils pas jouer à GTA 6 dès sa sortie en novembre 2026 sur PC ?

Monopoly go : jalons de récompenses du tournoi « Trinket Trove », conseils et informations avant sa sortie

Monopoly GO : Liens dés gratuit 17 Mars 2026

Pourquoi les développeurs évitent-ils déjà la “splash zone” autour de GTA 6 et quels jeux pourraient être impactés par sa sortie ?

LAISSER UN COMMENTAIRE Annuler la réponse