Un créateur de contenu sur YouTube a récemment intenté une action collective contre OpenAI, accusant la société d’utiliser les transcriptions de vidéos sans autorisation pour entraîner ses modèles d’IA.
Cette affaire soulève des questions importantes sur les droits d’auteur et l’utilisation éthique des données.
Lire aussi :
- Comment cette désignation de concurrence pourrait-elle influencer les relations futures entre Microsoft et OpenAI ?
- Comment les projets de loi soutenus par OpenAI pourraient-ils influencer la réglementation et le développement de l’intelligence artificielle aux États-Unis ?
La plainte et les accusations
David Millette, un YouTuber basé au Massachusetts, affirme qu’OpenAI a secrètement transcrit ses vidéos ainsi que celles d’autres créateurs pour améliorer ses modèles d’IA, notamment ChatGPT. Selon la plainte déposée au tribunal du district nord de la Californie, OpenAI aurait ainsi “profité de manière significative” du travail des créateurs sans leur consentement, violant ainsi la loi sur le droit d’auteur et les conditions d’utilisation de YouTube.
Les problèmes de formation des modèles IA
Les modèles génératifs comme ceux d’OpenAI n’ont pas de véritable intelligence. Ils apprennent à partir d’un grand nombre d’exemples (films, enregistrements vocaux, essais) et déterminent la probabilité d’occurrence des données en fonction des motifs observés, y compris le contexte des données environnantes. La plupart de ces modèles sont entraînés sur des données provenant de sites web et de jeux de données publics. Les entreprises soutiennent que l’usage loyal protège leurs efforts de collecte de données, mais de nombreux titulaires de droits d’auteur ne sont pas d’accord et intentent des actions en justice pour arrêter cette pratique.
Les transcriptions de vidéos sont devenues un ingrédient clé des données d’entraînement alors que d’autres sources de données se tarissent. Plus de 35 % des 1 000 principaux sites web mondiaux bloquent désormais le crawler web d’OpenAI, et environ 25 % des données provenant de sources de haute qualité ont été restreintes dans les principaux jeux de données utilisés pour entraîner les modèles d’IA, selon une étude de l’Initiative Data Provenance du MIT. Si cette tendance de blocage continue, le groupe de recherche Epoch AI prédit que les développeurs manqueront de données pour entraîner les modèles d’IA générative entre 2026 et 2032.
Perspectives futures et implications
Cette affaire pourrait établir un précédent important pour l’industrie de l’IA et les créateurs de contenu. Si la justice tranche en faveur des créateurs, cela pourrait forcer les entreprises d’IA à revoir leurs pratiques d’entraînement des modèles et à chercher des moyens plus éthiques et transparents de collecter des données. De plus, une telle décision pourrait encourager d’autres créateurs à défendre leurs droits face à des géants de la technologie.
En conclusion, cette action collective contre OpenAI soulève des questions essentielles sur l’utilisation des données et les droits des créateurs à l’ère de l’intelligence artificielle. Les développements futurs de cette affaire seront scrutés de près par l’industrie et les créateurs du monde entier.