Google a récemment annoncé ses projets pour fusionner ses modèles Gemini et Veo afin de créer un assistant numérique universel, capable de comprendre et de traiter plusieurs types de données.
Lors de son apparition sur le podcast Possible, Demis Hassabis, PDG de DeepMind, a expliqué la vision de Google pour ces modèles d’IA. Cette initiative pourrait marquer une avancée majeure dans le domaine de l’intelligence artificielle.
Lire aussi :
- YouTube étend sa technologie de détection des « ressemblances » pour lutter contre les faux contenus générés par IA
- Sage Future expérimente l’utilisation d’agents IA pour la collecte de fonds : une nouvelle ère pour la philanthropie ?
Une fusion pour un assistant multimodal
Google a conçu ses modèles Gemini pour être multimodaux, ce qui signifie qu’ils peuvent traiter différents types de données, tels que le texte, l’image, l’audio, et bientôt la vidéo. En intégrant ces modèles avec Veo, un autre système d’IA de Google spécialisé dans la génération vidéo, l’entreprise espère créer un assistant numérique capable de comprendre le monde réel à travers plusieurs médias.
L’objectif de cette fusion est de proposer un assistant plus intuitif et réactif. Ce dernier pourrait aider les utilisateurs à interagir avec leur environnement de manière plus fluide, en interprétant des vidéos, des images, et des sons tout en prenant en compte le contexte physique. Cela représente une avancée importante dans l’optimisation des interactions entre les humains et les technologies basées sur l’intelligence artificielle.
Les bénéfices de l’intelligence multimodale
L’intégration de la vidéo et de l’audio avec des modèles comme Gemini et Veo permettrait à l’assistant d’analyser non seulement du texte ou des images, mais aussi des interactions visuelles et auditives dans le monde réel. Cette évolution marque un tournant dans l’objectif de créer des assistants numériques capables de comprendre et d’aider l’utilisateur dans des environnements physiques complexes, avec une compréhension plus nuancée des scènes en trois dimensions et des actions humaines.
Les utilisateurs pourraient par exemple demander à l’assistant d’interpréter une scène vidéo ou d’analyser des sons dans un environnement pour fournir des réponses détaillées et adaptées. Une telle capacité à traiter plusieurs types de données en même temps permettrait une expérience beaucoup plus fluide et réactive.
L’utilisation des données YouTube pour entraîner les modèles
L’entraînement des modèles Veo repose sur une grande quantité de données vidéo, en grande partie issues de YouTube. Google explique que ces vidéos permettent à Veo de comprendre les lois physiques du monde réel, telles que la gravité ou la dynamique des objets en mouvement. Cela soulève néanmoins des questions sur l’utilisation des données de YouTube, et sur le respect des droits des créateurs de contenu.
Bien que Google ait indiqué que les vidéos utilisées respectent les conditions d’accord avec les créateurs, cette collecte de données à grande échelle reste un sujet sensible, notamment concernant la gestion des droits d’auteur et la confidentialité des utilisateurs. Il est donc crucial de trouver un équilibre entre l’utilisation de ces données et la protection des droits des créateurs.