Meta a récemment annoncé cinq projets majeurs développés par son équipe FAIR (Fundamental AI Research), visant à transformer l’intelligence artificielle (IA) en une machine plus proche de l’intelligence humaine.
Ces projets touchent des domaines essentiels comme la vision, le langage, la robotique, et les agents collaboratifs. L’objectif de Meta est de rendre ses modèles d’IA capables de mieux percevoir, comprendre et interagir avec le monde qui nous entoure.
Lire aussi :
- Taobao : Une alternative aux géants du e-commerce arrive dans le top 5 de l’App Store américain
- La transparence des rapports de sécurité de Google sur ses modèles d’IA : un véritable défi pour la confiance du public ?
Perception Encoder : améliorer la « vision » des IA
Le Perception Encoder est l’une des innovations majeures. Ce modèle est conçu pour renforcer la capacité des IA à analyser les images et vidéos. À l’instar des yeux humains, ce système permet aux machines de comprendre des concepts visuels complexes. Meta se félicite de ses performances exceptionnelles en matière de classification d’images, surpassant les modèles existants. Ce modèle est également bénéfique pour des tâches plus complexes de compréhension du langage visuel, telles que la réponse à des questions ou la localisation d’éléments dans une image. Ce système est donc une avancée significative dans la compréhension visuelle des IA.
Perception Language Model (PLM) : un modèle pour comprendre la vidéo
Le Perception Language Model (PLM) de Meta va plus loin en combinant la vision et le langage. Ce modèle est dédié à la reconnaissance d’objets dans des vidéos et images, en associant des textes à des scènes visuelles. Meta a utilisé des ensembles de données synthétiques pour entraîner ce modèle, ce qui lui permet d’être particulièrement performant dans des tâches de compréhension fine des vidéos. L’objectif est de permettre aux IA de traiter des données multimodales (image et texte) et de mieux comprendre les actions humaines à travers des vidéos, ce qui ouvre la voie à des applications variées, de l’analyse vidéo à l’assistance virtuelle.
Meta Locate 3D : la localisation d’objets en 3D
Le Meta Locate 3D est un modèle qui permet de localiser précisément des objets dans des environnements 3D à l’aide de requêtes en langage naturel. Par exemple, le système peut identifier un « vase de fleurs près du meuble TV » en utilisant des capteurs RGB-D. Cette innovation est cruciale pour la robotique, car elle permet aux robots de mieux comprendre leur environnement en 3D et d’interagir plus efficacement avec les humains. Ce modèle est un pas en avant vers la création de robots plus autonomes, capables de travailler aux côtés des êtres humains dans des environnements complexes.
Meta manipule-t-elle les tests de performance de ses modèles d’IA pour devancer ses concurrents ?
Avec ces cinq projets, Meta continue de pousser les limites de l’intelligence artificielle. L’objectif est de rendre les machines non seulement plus intelligentes, mais aussi plus proches de l’intelligence humaine. Ces avancées dans la vision, le langage, et la robotique pourraient transformer profondément les interactions entre l’homme et la machine, et offrir des solutions plus intuitives et efficaces pour des applications allant de l’assistance personnelle à l’industrie.