Elon Musk a récemment confirmé ce que plusieurs experts en intelligence artificielle (IA) soupçonnaient déjà : l’industrie a épuisé la majeure partie des données du monde réel disponibles pour entraîner des modèles d’IA.
Lors d’une discussion diffusée en direct sur X, Musk a déclaré : « Nous avons maintenant épuisé, en gros, la somme cumulative des connaissances humaines… Cela s’est produit essentiellement l’année dernière. »
Ce constat fait écho aux propos d’Ilya Sutskever, ancien scientifique en chef d’OpenAI, qui avait évoqué à la conférence NeurIPS l’idée d’un « pic de données ». Cette situation pousse les entreprises à réévaluer leurs méthodes, car les modèles d’IA ne peuvent plus se développer uniquement à partir des ressources existantes.
Lire aussi :
- Quelles fonctionnalités innovantes le Delta Concierge va-t-il offrir aux passagers pour améliorer leur expérience de voyage ?
- En quoi l’utilisation de l’Apple Vision Pro par Nvidia transforme-t-elle l’apprentissage des robots humanoïdes ?
Les données synthétiques : une solution prometteuse
Pour surmonter cette pénurie, Musk, à l’instar d’autres acteurs du secteur, mise sur les données synthétiques. Ces dernières sont générées par des modèles d’IA eux-mêmes et servent à compléter les données réelles. Selon Musk, cette approche permettra aux IA de s’auto-évaluer et d’apprendre de manière autonome.
Des entreprises comme Microsoft, Meta, OpenAI, et Anthropic utilisent déjà cette méthode pour former leurs modèles phares. Par exemple, le modèle Phi-4 de Microsoft et les systèmes Gemma de Google ont intégré des données synthétiques à leurs processus de formation. Gartner estime que d’ici 2024, 60 % des données utilisées pour les projets d’IA et d’analyse seront générées de manière synthétique.
L’avantage majeur réside dans les coûts réduits. Writer, une start-up spécialisée en IA, affirme que son modèle Palmyra X 004, basé presque entièrement sur des données synthétiques, a coûté environ 700 000 dollars à développer, contre 4,6 millions pour un modèle similaire d’OpenAI.
Les risques des données synthétiques
Cependant, cette approche n’est pas sans risque. Des études ont révélé que l’utilisation excessive de données synthétiques peut conduire à un « effondrement des modèles ». Ce phénomène se traduit par une perte de créativité et une augmentation des biais dans les réponses des modèles.
Les données synthétiques reflètent inévitablement les limitations et biais des modèles qui les génèrent. Ainsi, si un modèle initial contient des failles, celles-ci seront amplifiées dans ses itérations futures, compromettant gravement sa fiabilité et son utilité à long terme.
Une étape cruciale pour l’avenir de l’IA
L’épuisement des données du monde réel marque une transition importante pour l’industrie de l’IA. Alors que les entreprises explorent les potentialités des données synthétiques, elles devront aussi gérer leurs défis pour garantir des systèmes fiables, innovants et exempts de biais. Ce tournant pourrait redéfinir la manière dont l’IA évolue et impacte nos vies.