Meta a présenté cette semaine son nouveau modèle d’intelligence artificielle, le V-JEPA 2, un modèle révolutionnaire conçu pour aider les IA à mieux comprendre leur environnement.
Cette nouvelle itération du modèle V-JEPA, lancée l’année dernière, vise à rendre les agents IA capables d’interagir de manière plus naturelle et intelligente avec le monde physique. V-JEPA 2 s’inscrit dans la continuité de l’ambition de Meta de perfectionner les capacités cognitives des robots et autres agents IA en leur permettant de comprendre des concepts de base comme la gravité ou l’interaction avec des objets.
Lire aussi :
- Apple reporte l’IA personnalisée de Siri à 2026 : Quel impact sur son avenir face à la concurrence ?
- Comment macOS Tahoe transforme-t-il l’expérience utilisateur avec son design et ses nouvelles fonctionnalités ?
V-JEPA 2 : Un modèle pour la compréhension du monde réel
Le modèle V-JEPA 2 est une extension du V-JEPA original, qui avait déjà été formé à partir de plus d’un million d’heures de vidéo. L’objectif est d’enseigner aux IA des concepts élémentaires, comme le mouvement des objets, et comment ces objets interagissent entre eux dans des environnements physiques. Par exemple, un robot formé avec V-JEPA 2 sera capable de comprendre que si un objet est jeté en l’air, il retombera sous l’influence de la gravité. Cette capacité à prévoir des actions futures à partir de l’expérience acquise par la vidéo permet aux robots de mieux interagir avec le monde réel.
Un aspect fondamental du modèle est qu’il permet aux IA de réaliser des tâches en se basant sur des actions prévisibles. Meta prend l’exemple d’un robot qui tient une spatule et une assiette, se dirigeant vers un poêle avec des œufs cuits. L’IA peut prédire qu’il est très probable qu’elle utilise la spatule pour déplacer les œufs dans l’assiette. Ce genre de raisonnement simple mais crucial fait partie de la “compréhension du monde” que V-JEPA 2 cherche à simuler.
Comparaison avec d’autres modèles
Meta se targue que V-JEPA 2 est 30 fois plus rapide que le modèle Cosmos de Nvidia, un autre modèle qui tente également d’améliorer l’intelligence des robots en relation avec le monde physique. Toutefois, cette comparaison doit être prise avec précaution, car les benchmarks utilisés par Meta pour évaluer ses modèles peuvent différer de ceux utilisés par Nvidia. Malgré cela, la vitesse d’exécution impressionnante de V-JEPA 2 pourrait accélérer le déploiement de robots et d’agents IA capables de mieux comprendre leur environnement sans nécessiter des quantités astronomiques de données de formation.
Le futur de l’IA et des robots
Yann LeCun, le principal scientifique en IA chez Meta, a expliqué que les “world models” comme V-JEPA 2 ouvriraient une nouvelle ère pour la robotique. Ces modèles permettront aux agents IA de réaliser des tâches physiques dans le monde réel, comme aider aux tâches ménagères, sans avoir besoin d’une énorme base de données d’exemples. Cette approche pourrait rendre les robots plus accessibles et utiles dans des contextes variés, des environnements domestiques aux environnements industriels.