L’idée d’utiliser des données générées par une IA pour entraîner une autre IA peut sembler surprenante, mais elle est de plus en plus populaire à mesure que les données réelles deviennent plus difficiles à obtenir.
Des entreprises comme Anthropic, Meta et OpenAI ont déjà commencé à intégrer des données synthétiques dans leurs processus d’entraînement de modèles. Mais cette pratique soulève des questions importantes : peut-on vraiment remplacer les données réelles par des données synthétiques sans compromettre la qualité des modèles ?
Lire aussi :
- Comment l’intégration de l’intelligence artificielle pourrait-elle transformer l’expérience d’apprentissage des langues chez Babbel ?
- Comment la technologie VAPR d’Amazon pourrait-elle transformer l’efficacité des livraisons et réduire les délais à chaque arrêt ?
Pourquoi l’IA a-t-elle besoin de données ?
Les systèmes d’IA sont des machines statistiques qui apprennent à partir de nombreux exemples. Ces exemples sont souvent annotés, c’est-à-dire que des informations spécifiques sont ajoutées pour “apprendre” au modèle à identifier différents éléments. Par exemple, un modèle qui classifie des images de cuisines apprendra à reconnaître les caractéristiques d’une cuisine grâce aux annotations. Cependant, la collecte et l’annotation de ces données peuvent être coûteuses et biaisées, d’où l’intérêt croissant pour les alternatives synthétiques.
L’essor des données synthétiques
Les données synthétiques apparaissent comme une solution à ces problèmes. Elles permettent de générer des exemples rapidement et sans contraintes humaines, et ce, à grande échelle. Des entreprises comme Writer, Microsoft ou OpenAI ont déjà recours à ces techniques pour compléter leurs bases de données. En théorie, les données synthétiques pourraient résoudre le problème de la rareté des données tout en réduisant les coûts associés à l’entraînement des modèles.
L’utilisation de ces données présente un avantage certain : elle permet de générer des ensembles de données dans des formats qui ne sont pas facilement accessibles via les méthodes traditionnelles, comme le scraping ou la licence de contenu. Par exemple, Meta a utilisé des modèles IA pour générer des légendes de vidéos lors de l’entraînement de son générateur de vidéos Movie Gen.
Les risques liés aux données synthétiques
Cependant, les données synthétiques ne sont pas sans risques. Elles sont soumises au même problème que les autres données : “garbage in, garbage out”. Si les modèles qui génèrent ces données sont biaisés ou limités, leurs sorties le seront aussi. Les groupes sous-représentés dans les données réelles risquent d’être encore moins représentés dans les données synthétiques.
Un autre risque est la dégradation des modèles entraînés uniquement sur des données synthétiques. Des études ont montré que la diversité des modèles diminue après plusieurs cycles d’entraînement sur ces données, ce qui entraîne des résultats plus génériques et moins pertinents. Les hallucinations, erreurs récurrentes dans les modèles IA, sont également plus difficiles à repérer dans les données générées, ce qui pourrait aggraver les problèmes de précision.
Bien que les données synthétiques offrent des avantages clairs, leur utilisation nécessite une grande prudence. Les chercheurs doivent examiner et filtrer attentivement ces données avant de les utiliser pour l’entraînement.