Adobe, entreprise leader dans le développement de logiciels créatifs, s’est récemment attiré des ennuis juridiques suite à l’utilisation de contenus protégés pour entraîner ses modèles d’intelligence artificielle.
La société, qui a fortement investi dans l’IA ces dernières années, notamment à travers son outil Firefly pour la génération de médias, fait maintenant face à un recours collectif proposé par une auteure, Elizabeth Lyon, de l’Oregon. Cette dernière accuse Adobe d’avoir utilisé des versions piratées de ses livres, ainsi que d’autres ouvrages protégés, pour entraîner son modèle SlimLM, dans une violation potentielle de ses droits d’auteur.
Lire aussi :
- Comment l’IA de Momo Self Care aide-t-elle à construire des habitudes et améliorer le bien-être personnel ?
- Pourquoi les applications d’IA grand public peinent-elles à s’imposer malgré le boom de l’IA générative ?
Une affaire juridique en pleine expansion dans le domaine de l’IA
Lyon, auteure de plusieurs guides sur l’écriture non-fictionnelle, soutient que ses Å“uvres, ainsi que celles de nombreux autres auteurs, ont été incluses dans un ensemble de données de formation utilisé pour l’entraînement du modèle SlimLM. Ce modèle a été alimenté par un sous-ensemble du dataset SlimPajama-627B, un ensemble de données “dé-duplicationnées” et multi-corpus, mis en libre accès par Cerebras en juin 2023. Cependant, Lyon affirme que cet ensemble de données a été construit à partir d’une version manipulée du dataset RedPajama, un autre ensemble de données volumineux comprenant de nombreux livres protégés par des droits d’auteur.
Les implications des datasets piratés pour l’industrie de l’IA
Le dataset “Books3” est au cÅ“ur de l’affaire, représentant une collection de 191 000 livres utilisés pour former des systèmes d’IA de génération de texte, y compris SlimLM. Ce dataset a déjà été cité dans plusieurs affaires juridiques. Adobe, comme Apple et Salesforce dans des affaires précédentes, pourrait faire face à une série de litiges similaires, mettant en lumière l’utilisation de contenus piratés dans l’entraînement des intelligences artificielles. En 2023, Anthropic, une autre entreprise de l’IA, a accepté de payer 1,5 milliard de dollars pour résoudre une affaire similaire concernant l’utilisation de contenus piratés pour entraîner son chatbot Claude.
Une nouvelle ère de régulation pour l’IA et les droits d’auteur
La montée en puissance de l’IA soulève des questions complexes concernant les droits d’auteur. Les entreprises technologiques, en particulier dans le domaine de l’IA, utilisent des ensembles de données massifs pour entraîner leurs modèles. Toutefois, l’utilisation de contenu piraté, sans consentement ni compensation, pose un problème majeur pour les créateurs de contenu. Avec l’augmentation de ces affaires en justice, il est probable que de nouvelles régulations seront mises en place pour protéger les droits des auteurs dans l’ère numérique.
Le procès contre Adobe pourrait devenir un tournant dans la régulation des données utilisées pour entraîner les intelligences artificielles, incitant à une plus grande transparence et à la mise en place de mécanismes de compensation pour les créateurs. Les prochaines étapes judiciaires détermineront si l’industrie de l’IA devra ajuster ses pratiques vis-à -vis des droits d’auteur.

