Google DeepMind a présenté Genie 3, son nouveau modèle de monde génératif, conçu pour entraîner des agents d’IA capables d’interagir avec leur environnement de manière autonome.
Selon l’équipe de recherche, il s’agit d’un jalon clé sur la route vers l’intelligence artificielle générale (AGI), une forme d’intelligence comparable à celle des humains.
Lire aussi :
- Meta prévoit jusqu’à 72 milliards de dollars pour l’infrastructure IA en 2025, alors que la course à la puissance de calcul s’intensifie
- Comment l’IA transforme-t-elle l’expérience cinématographique du “Magicien d’Oz” pour la projection géante de la Sphere à Las Vegas ?
Un modèle interactif, généralisé et physiquement cohérent
Contrairement à ses prédécesseurs, Genie 3 n’est pas limité à un environnement spécifique. Il peut générer des mondes photo-réalistes ou imaginaires à partir de simples invites textuelles, en temps réel et avec une résolution de 720p à 24 images par seconde, sur plusieurs minutes d’interaction. Le système est également capable de répondre à des événements dynamiques déclenchés par des prompts, ce qui rend l’expérience interactive encore plus immersive.
Le plus impressionnant, selon les chercheurs de DeepMind, c’est que Genie 3 retient ce qu’il a généré auparavant, assurant ainsi la cohérence physique dans le temps, sans que cela ait été codé explicitement. Cette capacité de mémoire permet au modèle de simuler des scènes où les objets tombent, interagissent, ou se déplacent comme dans le monde réel.
Un outil prometteur pour former des agents généralistes
Genie 3 représente un environnement de simulation idéal pour entraîner des agents d’IA à effectuer des tâches diverses dans des contextes ouverts. Lors d’un test, DeepMind a demandé à un agent nommé SIMA de se diriger vers un objet spécifique dans un entrepôt simulé. Grâce à la constance des environnements générés par Genie 3, l’agent a pu atteindre les objectifs avec succès, démontrant l’utilité du modèle dans le développement de capacités cognitives.
Ce type de simulation ouvre la voie à des agents capables d’explorer, de planifier, de tester, et d’apprendre de leurs erreurs, une approche essentielle pour aller au-delà des IA réactives et vers une apprentissage incarné auto-dirigé, pilier potentiel de l’AGI.
Des limites encore à surmonter
Malgré ses avancées, Genie 3 n’est pas sans défauts. Certains comportements physiques, comme la gestion de la neige dans une descente de ski simulée, manquent de réalisme. De plus, le nombre d’actions disponibles pour les agents est encore limité, et il reste difficile de simuler des interactions complexes entre plusieurs agents autonomes.
Autre contrainte importante : le modèle ne peut actuellement simuler que quelques minutes d’interaction continue, alors que des heures seraient nécessaires pour former des agents véritablement généralistes.