Une étude récente publiée dans Nature, menée par des chercheurs britanniques et canadiens sous la direction d’Ilia Shumailov d’Oxford, révèle un risque majeur pour les modèles d’apprentissage automatique actuels, appelé model collapse.
Ce phénomène survient lorsque des modèles d’IA apprennent de données générées par d’autres modèles, ce qui conduit à une dégénérescence progressive de leur capacité à comprendre les données originales.
Lire aussi :
- Comment la nouvelle capsule Dragon de SpaceX pourrait-elle transformer l’avenir des missions de récupération spatiale ?
- Google accusé de tromper les consommateurs pour collecter des données publicitaires
Un cercle vicieux de données uniformes
Les modèles d’IA, qu’ils soient destinés à générer des textes ou des images, fonctionnent en identifiant des motifs dans les données d’entraînement et en les reproduisant. Cependant, ces modèles ont tendance à privilégier les sorties les plus communes. Par exemple, un générateur d’images demandant une photo de chien produira probablement une image de golden retriever, une race courante dans les données d’entraînement, plutôt qu’une race rare.
Avec l’augmentation des contenus générés par l’IA sur Internet, les nouveaux modèles d’IA commencent à intégrer ces contenus dans leur entraînement. Ce phénomène crée un effet boule de neige où les modèles amplifient les biais existants, oubliant progressivement les diversités réelles présentes dans les données originales. Ainsi, un modèle formé sur des contenus IA générés risque de croire que la majorité des chiens sont des golden retrievers, augmentant encore cette proportion dans ses futures générations.
Comment avoir une petite amie virtuelle ? 5 sites à connaitre en 2024
Les implications du Model Collapse
Les conséquences de ce processus sont préoccupantes. Les modèles d’IA pourraient devenir de plus en plus biaisés et moins performants, oubliant la variété des données d’origine. Les chercheurs soulignent que si ce problème n’est pas adressé, les modèles d’IA risquent de devenir plus étranges et plus stupides jusqu’à un point de rupture.
Pour éviter ce model collapse, plusieurs solutions sont proposées. Parmi elles, l’importance de diversifier les sources de données d’entraînement et d’implémenter des benchmarks qualitatifs et quantitatifs pour évaluer la diversité des données. De plus, le marquage des données générées par l’IA pourrait aider à prévenir l’apprentissage involontaire de ces contenus par d’autres modèles.
Vers une régulation et une diversification des données
Bien que la mise en œuvre de ces solutions soit complexe et encore loin d’être standardisée, il est crucial de prendre ces risques au sérieux. Les entreprises pourraient être tentées de garder leurs données originales pour elles-mêmes, exacerbant ainsi le problème. Cependant, sans un accès à des données diversifiées et de qualité, l’avenir des modèles d’IA est incertain.
En conclusion, le model collapse est une menace sérieuse pour le développement futur de l’intelligence artificielle. Pour garantir des modèles performants et représentatifs, il est essentiel de diversifier les sources de données et de réguler leur utilisation. Seule une approche réfléchie et collaborative permettra de prévenir cette dégénérescence et de maintenir les avantages offerts par l’IA.