Comment les entreprises technologiques peuvent-elles améliorer les capacités visuelles des modèles d'IA pour qu'ils correspondent mieux à la compréhension humaine ?

Les derniers modèles de langage, tels que GPT-4o et Gemini 1.5 Pro, sont souvent présentés comme multimodaux, capables de comprendre les images et les sons en plus du texte.

Cependant, une nouvelle étude révèle que ces modèles ne voient pas vraiment comme on pourrait s’y attendre. En fait, ils pourraient ne pas voir du tout. Les entreprises de technologie utilisent des expressions telles que capacités de vision et compréhension visuelle pour promouvoir ces modèles, mais leur véritable compréhension visuelle reste douteuse.

Des tests simples, des échecs Surprenants

Une étude menée par des chercheurs de l’Université d’Auburn et de l’Université de l’Alberta a testé les plus grands modèles multimodaux sur une série de tâches visuelles très simples, telles que déterminer si deux formes se chevauchent ou compter le nombre de pentagones dans une image. Ces tâches, que même un enfant de première année réussirait sans problème, ont posé de grandes difficultés aux modèles d’IA. Par exemple, les modèles ont eu du mal à déterminer si deux cercles se chevauchaient ou non. GPT-4o a réussi cette tâche à plus de 95% lorsque les cercles étaient éloignés, mais seulement à 18% lorsque les cercles étaient proches.

Les coûts de ChatGPT : Tout ce que vous devez savoir sur les tarifs proposés par OpenAI

Une apparente cécité des modèles

L’étude démontre que ces modèles ne voient pas vraiment les images de la manière dont nous le pensons. Ils ne font que correspondre des motifs dans les données d’entrée à des motifs dans leurs données d’entraînement. Cela conduit à des échecs similaires à ceux observés dans d’autres tâches apparemment triviales, comme choisir un nombre aléatoire. Par exemple, les modèles ont eu des difficultés à compter correctement le nombre de cercles entrelacés dans une image, avec des performances variant de manière incohérente selon le nombre de cercles.

Une capacité visuelle qui pose question

Les résultats de cette étude soulignent que, bien que ces modèles puissent accomplir certaines tâches visuelles, ils ne comprennent pas vraiment ce qu’ils “voient”. Par exemple, lorsqu’ils sont confrontés à une question sur des cercles de différentes couleurs se chevauchant, les modèles ont parfois donné des réponses qui seraient plausibles si les cercles étaient des images fixes mais ne correspondent pas à une observation visuelle réelle.

Pourquoi le rapport environnemental 2024 de Google n’aborde-t-il pas clairement la consommation énergétique de l’IA ?

En conclusion, bien que les modèles d’IA visuelle actuels puissent être utiles pour certaines tâches spécifiques, leur capacité à “voir” reste limitée et ne correspond pas à une véritable compréhension visuelle. Cette étude met en lumière la nécessité de continuer à évaluer et à améliorer ces technologies pour mieux comprendre leurs capacités et leurs limites.

Comment les entreprises technologiques peuvent-elles améliorer les capacités visuelles des modèles d’IA pour qu’ils correspondent mieux à la compréhension humaine ?

Des tests simples, des échecs Surprenants

Une apparente cécité des modèles

Une capacité visuelle qui pose question

Partager cet article

Actualités

GTA 6 Online pourrait arriver bien plus tôt que prévu : une fuite dévoile une fenêtre de sortie proche du lancement

GTA 6 : des détails sur une mission potentielle ont fuité et révèlent de nouvelles informations sur le jeu

Monopoly go : jalons de récompenses du tournoi « Tycoon Class », conseils et informations avant sa sortie

GTA 6 : un ancien développeur brise l’illusion et alerte sur des trailers “trop parfaits” qui pourraient tromper les joueurs

GTA 5 : une découverte inattendue révèle un personnage issu d’un jeu Rockstar oublié

LAISSER UN COMMENTAIRE Annuler la réponse