Un rapport récent publié par l’AI Disclosures Project jette une nouvelle lumière sur les pratiques controversées d’OpenAI en matière d’entraînement de ses modèles d’intelligence artificielle.
Selon les auteurs de cette étude, l’entreprise aurait potentiellement utilisé des contenus protégés et payants issus des livres publiés par O’Reilly Media, sans autorisation préalable.
Lire aussi :
- Trump promet une vente de TikTok avant le 5 avril : un avenir sécurisé pour l’application aux États-Unis ?
- Plex modernise son application mobile : cette refonte lui permettra-t-elle de mieux rivaliser avec les géants du streaming ?
Une méthode d’analyse innovante pour déceler l’origine des données
Pour appuyer leurs accusations, les chercheurs ont utilisé une technique appelée DE-COP (Detecting Copyrighted Outputs in Pretrained models), qui permet de détecter la présence de contenus protégés dans les ensembles de données ayant servi à entraîner des modèles linguistiques. Le principe repose sur la capacité d’un modèle à distinguer des extraits originaux d’un texte d’auteur de leurs versions paraphrasées générées par IA. Si le modèle reconnaît systématiquement le contenu authentique, cela indique fortement qu’il l’a déjà « vu » durant son entraînement.
En analysant 13 962 extraits provenant de 34 ouvrages O’Reilly publiés avant la date de coupure du modèle GPT-4o, les chercheurs ont constaté que ce dernier montrait une « reconnaissance accrue » des livres payants, bien supérieure à celle de GPT-3.5 Turbo, son prédécesseur. Ce constat a conduit les auteurs à estimer que GPT-4o a probablement été entraîné sur des données issues de livres non publics d’O’Reilly.
OpenAI sous pression : ChatGPT accusé d’avoir généré des fausses accusations de meurtre en Norvège
OpenAI dans la tourmente face à des accusations croissantes
Ce n’est pas la première fois qu’OpenAI est accusée d’exploiter du contenu sans autorisation. Déjà ciblée par plusieurs procès, notamment de la part d’éditeurs et d’auteurs, l’entreprise défend sa position en invoquant le principe du fair use (usage équitable). Elle affirme par ailleurs payer pour certaines sources et proposer des mécanismes d’exclusion pour les détenteurs de droits. Néanmoins, ces outils restent limités et ne couvrent pas toujours tous les cas.
Il est également important de noter que les chercheurs à l’origine de ce rapport reconnaissent eux-mêmes que leurs résultats ne constituent pas une preuve formelle. Ils admettent que les extraits détectés pourraient, dans certains cas, provenir d’interactions utilisateurs ayant copié du contenu dans ChatGPT. Toutefois, le niveau élevé de reconnaissance observé soulève de sérieuses questions sur les pratiques internes de l’entreprise.
Une quête de données toujours plus poussée
La compétition féroce entre géants de l’IA pousse les entreprises comme OpenAI à rechercher des données d’entraînement de plus en plus qualitatives. C’est pourquoi elles s’orientent désormais vers des contenus produits par des experts : journalistes, scientifiques ou encore enseignants, afin d’affiner leurs modèles. Mais cette course à la performance soulève des enjeux éthiques majeurs, notamment sur la propriété intellectuelle et la rémunération des créateurs.
Avec la publication de ce rapport, la pression s’intensifie autour d’OpenAI, qui devra sans doute redoubler de transparence si elle souhaite continuer à convaincre sur la légitimité de ses avancées technologiques.