AccueilActualitésContenus volés ? Scandale AI : OpenAI accusée d’avoir exploité des livres...

Contenus volés ? Scandale AI : OpenAI accusée d’avoir exploité des livres O’Reilly pour entraîner GPT-4o sans autorisation

Publié le

2 avril 2025

par

Un rapport récent publié par l’AI Disclosures Project jette une nouvelle lumière sur les pratiques controversées d’OpenAI en matière d’entraînement de ses modèles d’intelligence artificielle.

CHATGPT accusé d’ILLÉGALITÉ : violation massive des DROITS D’AUTEUR ? ⚖️ Actus IA 10

CHATGPT accusé d’ILLÉGALITÉ : violation massive des DROITS D’AUTEUR ? ⚖️ Actus IA 10

Lire cette vidéo sur YouTube

Selon les auteurs de cette étude, l’entreprise aurait potentiellement utilisé des contenus protégés et payants issus des livres publiés par O’Reilly Media, sans autorisation préalable.

Lire aussi :

Une méthode d’analyse innovante pour déceler l’origine des données

Pour appuyer leurs accusations, les chercheurs ont utilisé une technique appelée DE-COP (Detecting Copyrighted Outputs in Pretrained models), qui permet de détecter la présence de contenus protégés dans les ensembles de données ayant servi à entraîner des modèles linguistiques. Le principe repose sur la capacité d’un modèle à distinguer des extraits originaux d’un texte d’auteur de leurs versions paraphrasées générées par IA. Si le modèle reconnaît systématiquement le contenu authentique, cela indique fortement qu’il l’a déjà « vu » durant son entraînement.

En analysant 13 962 extraits provenant de 34 ouvrages O’Reilly publiés avant la date de coupure du modèle GPT-4o, les chercheurs ont constaté que ce dernier montrait une « reconnaissance accrue » des livres payants, bien supérieure à celle de GPT-3.5 Turbo, son prédécesseur. Ce constat a conduit les auteurs à estimer que GPT-4o a probablement été entraîné sur des données issues de livres non publics d’O’Reilly.

OpenAI sous pression : ChatGPT accusé d’avoir généré des fausses accusations de meurtre en Norvège

OpenAI dans la tourmente face à des accusations croissantes

Ce n’est pas la première fois qu’OpenAI est accusée d’exploiter du contenu sans autorisation. Déjà ciblée par plusieurs procès, notamment de la part d’éditeurs et d’auteurs, l’entreprise défend sa position en invoquant le principe du fair use (usage équitable). Elle affirme par ailleurs payer pour certaines sources et proposer des mécanismes d’exclusion pour les détenteurs de droits. Néanmoins, ces outils restent limités et ne couvrent pas toujours tous les cas.

Il est également important de noter que les chercheurs à l’origine de ce rapport reconnaissent eux-mêmes que leurs résultats ne constituent pas une preuve formelle. Ils admettent que les extraits détectés pourraient, dans certains cas, provenir d’interactions utilisateurs ayant copié du contenu dans ChatGPT. Toutefois, le niveau élevé de reconnaissance observé soulève de sérieuses questions sur les pratiques internes de l’entreprise.

Une quête de données toujours plus poussée

La compétition féroce entre géants de l’IA pousse les entreprises comme OpenAI à rechercher des données d’entraînement de plus en plus qualitatives. C’est pourquoi elles s’orientent désormais vers des contenus produits par des experts : journalistes, scientifiques ou encore enseignants, afin d’affiner leurs modèles. Mais cette course à la performance soulève des enjeux éthiques majeurs, notamment sur la propriété intellectuelle et la rémunération des créateurs.

OpenAI rend son assistant vocal plus humain : Ces améliorations suffiront-elles à faire de ChatGPT la référence face à Alexa et aux nouveaux assistants IA comme Sesame ?

Avec la publication de ce rapport, la pression s’intensifie autour d’OpenAI, qui devra sans doute redoubler de transparence si elle souhaite continuer à convaincre sur la légitimité de ses avancées technologiques.

Intelligence artificielle

"Caroline est une rédactrice passionnée et visionnaire pour 2051.fr, où elle explore les frontières de l'innovation et de la technologie. Elle possède une expertise particulière en intelligence artificiel, ce qui enrichit ses articles d'analyses perspicaces et de perspectives avant-gardistes. Avec une curiosité insatiable pour les évolutions technologiques et leur impact sur la société, Caroline s'engage à dévoiler les tendances émergentes qui dessineront notre avenir. Ses écrits ne se contentent pas de présenter des faits ; ils invitent à la réflexion, offrant aux lecteurs une fenêtre sur le monde de demain. Sa capacité à lier les avancées scientifiques aux enjeux sociétaux fait de ses articles une lecture incontournable pour ceux qui s'intéressent à l'avenir de notre planète."

Partager cet article

Actualités

Article précédent

Gen-4 va-t-il marquer un tournant décisif pour la production audiovisuelle à l’ère de l’intelligence artificielle ?

Article suivant

Signal explose après une fuite dans l’administration Trump : ce scandale l’a-t-il propulsé en tête des téléchargements ?

LAISSER UN COMMENTAIRE Annuler la réponse

S'il vous plaît entrez votre commentaire!

S'il vous plaît entrez votre nom ici

Vous avez entré une adresse email incorrecte!

Veuillez entrer votre adresse email ici