Les derniers modèles de langage, tels que GPT-4o et Gemini 1.5 Pro, sont souvent présentés comme multimodaux, capables de comprendre les images et les sons en plus du texte.
Cependant, une nouvelle étude révèle que ces modèles ne voient pas vraiment comme on pourrait s’y attendre. En fait, ils pourraient ne pas voir du tout. Les entreprises de technologie utilisent des expressions telles que capacités de vision et compréhension visuelle pour promouvoir ces modèles, mais leur véritable compréhension visuelle reste douteuse.
Lire aussi :
- Comment l’acquisition de Multi par OpenAI va-t-elle améliorer les outils de collaboration à distance pour les entreprises utilisant ChatGPT ?
- Comment Airchat gère-t-elle les défis de modération du contenu audio tout en favorisant les discussions thématiques ?
Des tests simples, des échecs Surprenants
Une étude menée par des chercheurs de l’Université d’Auburn et de l’Université de l’Alberta a testé les plus grands modèles multimodaux sur une série de tâches visuelles très simples, telles que déterminer si deux formes se chevauchent ou compter le nombre de pentagones dans une image. Ces tâches, que même un enfant de première année réussirait sans problème, ont posé de grandes difficultés aux modèles d’IA. Par exemple, les modèles ont eu du mal à déterminer si deux cercles se chevauchaient ou non. GPT-4o a réussi cette tâche à plus de 95% lorsque les cercles étaient éloignés, mais seulement à 18% lorsque les cercles étaient proches.
Les coûts de ChatGPT : Tout ce que vous devez savoir sur les tarifs proposés par OpenAI
Une apparente cécité des modèles
L’étude démontre que ces modèles ne voient pas vraiment les images de la manière dont nous le pensons. Ils ne font que correspondre des motifs dans les données d’entrée à des motifs dans leurs données d’entraînement. Cela conduit à des échecs similaires à ceux observés dans d’autres tâches apparemment triviales, comme choisir un nombre aléatoire. Par exemple, les modèles ont eu des difficultés à compter correctement le nombre de cercles entrelacés dans une image, avec des performances variant de manière incohérente selon le nombre de cercles.
Une capacité visuelle qui pose question
Les résultats de cette étude soulignent que, bien que ces modèles puissent accomplir certaines tâches visuelles, ils ne comprennent pas vraiment ce qu’ils “voient”. Par exemple, lorsqu’ils sont confrontés à une question sur des cercles de différentes couleurs se chevauchant, les modèles ont parfois donné des réponses qui seraient plausibles si les cercles étaient des images fixes mais ne correspondent pas à une observation visuelle réelle.
En conclusion, bien que les modèles d’IA visuelle actuels puissent être utiles pour certaines tâches spécifiques, leur capacité à “voir” reste limitée et ne correspond pas à une véritable compréhension visuelle. Cette étude met en lumière la nécessité de continuer à évaluer et à améliorer ces technologies pour mieux comprendre leurs capacités et leurs limites.