La plateforme sociale Bluesky se retrouve au centre d’un débat houleux concernant l’utilisation des données de ses utilisateurs pour l’entraînement des IA génératives et l’archivage public.
Un récent projet publié sur GitHub propose de nouvelles options permettant aux membres d’exprimer leur consentement ou leur opposition à ces pratiques. Cependant, cette initiative divise la communauté.
Lire aussi :
- Nvidia GTC 2025 : Quelles annonces attendre de la grande conférence annuelle ?
- Google DeepMind révolutionne la robotique avec Gemini Robotics : vers des machines plus intelligentes et autonomes
Un projet controversé autour des données utilisateurs
Lors d’une intervention à South by Southwest, la PDG de Bluesky, Jay Graber, a présenté cette proposition, qui a suscité de nombreuses réactions après sa publication sur la plateforme. Certains utilisateurs ont perçu cette annonce comme une trahison des engagements initiaux de Bluesky, notamment son refus de vendre les données aux annonceurs ou de les exploiter pour entraîner des IA.
Face aux critiques, Graber a expliqué que les entreprises d’IA scrutent déjà les données publiques sur le web, y compris celles de Bluesky. Elle défend l’idée de créer un nouveau standard similaire au fichier robots.txt, qui informe les moteurs de recherche sur les permissions de navigation et de collecte des données.
Une option de consentement, mais sans force légale
Bluesky souhaite instaurer un système où les utilisateurs pourraient choisir comment leurs données sont utilisées, via plusieurs catégories :
- IA générative : empêcher ou autoriser l’utilisation de leurs publications pour l’entraînement des modèles d’IA.
- Interconnexion des protocoles : définir si leurs données peuvent être utilisées pour connecter Bluesky à d’autres écosystèmes sociaux.
- Bases de données massives : refuser ou accepter l’inclusion de leurs publications dans des ensembles de données.
- Archivage web : choisir si leurs contenus peuvent être enregistrés sur des plateformes comme Wayback Machine.
Toutefois, ce dispositif n’a aucune valeur juridique. Comme l’explique la proposition, les entreprises d’IA et de recherche sont seulement invitées à respecter ces préférences, sans obligation légale.
Une initiative qui divise la communauté
Si certains, comme Molly White, auteure du blog Web3 is Going Just Great, jugent cette proposition pertinente, d’autres la perçoivent comme une acceptation tacite du scraping des données. White souligne que le principal problème est la dépendance aux bons comportements des scrapers. Plusieurs entreprises d’IA ont déjà ignoré les règles établies par robots.txt, ou même utilisé des données piratées pour nourrir leurs modèles.
Bluesky cherche à établir une nouvelle norme de transparence, mais la question demeure : les acteurs de l’IA respecteront-ils réellement ces préférences ? L’avenir de cette initiative dépendra en grande partie de l’éthique des entreprises technologiques et de l’évolution de la législation sur la protection des données.