Dans une bataille judiciaire opposant Meta à des auteurs concernant l’utilisation de contenus protégés par le droit d’auteur pour former ses modèles d’IA, Mark Zuckerberg s’est appuyé sur un argument surprenant : l’exemple de YouTube dans la gestion des contenus piratés.
Lire aussi :
- Comment le livestreaming sur Substack peut-il renforcer l’engagement entre les créateurs et leurs abonnés ?
- Pourquoi les utilisateurs américains rencontrent-ils autant de difficultés en migrant de TikTok vers RedNote ?
L’affaire Kadrey v. Meta Platforms : un litige au cœur de l’IA et du droit d’auteur
L’affaire en question, Kadrey v. Meta Platforms, concerne l’utilisation par Meta d’un ensemble de données comprenant des e-books protégés par le droit d’auteur, issus de la bibliothèque numérique controversée LibGen. Selon des documents judiciaires récemment dévoilés, des employés de Meta auraient qualifié LibGen de « base de données piratée », tout en exprimant des préoccupations concernant les implications légales de son utilisation. Malgré cela, il est allégué que Meta a utilisé cette base pour former ses modèles Llama, concurrents des modèles d’OpenAI et de Google.
Lors de sa déposition, Mark Zuckerberg a comparé l’approche de Meta à celle de YouTube, expliquant que la plateforme vidéo ne bloque pas l’accès en raison de la présence de contenus piratés, mais s’efforce de les supprimer tout en autorisant les contenus légaux.
LibGen et Z-Library : des sources controversées
LibGen, souvent décrite comme une plateforme d’accès à des œuvres piratées, a été impliquée dans de multiples affaires judiciaires. Selon l’amendement récent de la plainte, Meta aurait non seulement utilisé LibGen, mais aussi Z-Library, une autre source de contenus illégaux, pour former ses modèles Llama 3 et potentiellement Llama 4. Les avocats des plaignants accusent Meta d’avoir croisé des données piratées avec des œuvres sous licence pour déterminer si des accords commerciaux avec des éditeurs étaient nécessaires.
Meta est également accusée d’avoir dissimulé l’utilisation de contenus protégés en intégrant des « échantillons supervisés » lors du réglage final de ses modèles, rendant plus difficile la détection des données protégées utilisées.
Vers une réglementation renforcée des technologies d’IA ?
Ces révélations interviennent alors que les débats sur l’utilisation de contenus protégés dans la formation des modèles d’IA s’intensifient. Les défenseurs du droit d’auteur affirment que de telles pratiques violent les lois sur la propriété intellectuelle, tandis que des entreprises comme Meta défendent leur position en invoquant le « fair use » (usage équitable).
Avec de nouvelles restrictions proposées par l’administration Biden pour limiter l’accès des entreprises chinoises à des technologies avancées, il est probable que les régulations entourant les données d’entraînement pour l’IA se durcissent également.
Mark Zuckerberg a admis que Meta devait être prudente avec les contenus protégés, mais les accusations portées contre l’entreprise pourraient renforcer les appels à une réglementation plus stricte dans le secteur de l’intelligence artificielle.