AccueilActualitésComment les entreprises technologiques peuvent-elles améliorer les capacités visuelles des modèles d'IA...

Comment les entreprises technologiques peuvent-elles améliorer les capacités visuelles des modèles d’IA pour qu’ils correspondent mieux à la compréhension humaine ?

Publié le

par

Les derniers modèles de langage, tels que GPT-4o et Gemini 1.5 Pro, sont souvent présentés comme multimodaux, capables de comprendre les images et les sons en plus du texte.

Cependant, une nouvelle étude révèle que ces modèles ne voient pas vraiment comme on pourrait s’y attendre. En fait, ils pourraient ne pas voir du tout. Les entreprises de technologie utilisent des expressions telles que capacités de vision et compréhension visuelle pour promouvoir ces modèles, mais leur véritable compréhension visuelle reste douteuse.

Lire aussi :

  1. Comment l’acquisition de Multi par OpenAI va-t-elle améliorer les outils de collaboration à distance pour les entreprises utilisant ChatGPT ?
  2. Comment Airchat gère-t-elle les défis de modération du contenu audio tout en favorisant les discussions thématiques ?

Des tests simples, des échecs Surprenants

Une étude menée par des chercheurs de l’Université d’Auburn et de l’Université de l’Alberta a testé les plus grands modèles multimodaux sur une série de tâches visuelles très simples, telles que déterminer si deux formes se chevauchent ou compter le nombre de pentagones dans une image. Ces tâches, que même un enfant de première année réussirait sans problème, ont posé de grandes difficultés aux modèles d’IA. Par exemple, les modèles ont eu du mal à déterminer si deux cercles se chevauchaient ou non. GPT-4o a réussi cette tâche à plus de 95% lorsque les cercles étaient éloignés, mais seulement à 18% lorsque les cercles étaient proches.

Les coûts de ChatGPT : Tout ce que vous devez savoir sur les tarifs proposés par OpenAI

Une apparente cécité des modèles

L’étude démontre que ces modèles ne voient pas vraiment les images de la manière dont nous le pensons. Ils ne font que correspondre des motifs dans les données d’entrée à des motifs dans leurs données d’entraînement. Cela conduit à des échecs similaires à ceux observés dans d’autres tâches apparemment triviales, comme choisir un nombre aléatoire. Par exemple, les modèles ont eu des difficultés à compter correctement le nombre de cercles entrelacés dans une image, avec des performances variant de manière incohérente selon le nombre de cercles.

Une capacité visuelle qui pose question

Les résultats de cette étude soulignent que, bien que ces modèles puissent accomplir certaines tâches visuelles, ils ne comprennent pas vraiment ce qu’ils “voient”. Par exemple, lorsqu’ils sont confrontés à une question sur des cercles de différentes couleurs se chevauchant, les modèles ont parfois donné des réponses qui seraient plausibles si les cercles étaient des images fixes mais ne correspondent pas à une observation visuelle réelle.

Pourquoi le rapport environnemental 2024 de Google n’aborde-t-il pas clairement la consommation énergétique de l’IA ?

En conclusion, bien que les modèles d’IA visuelle actuels puissent être utiles pour certaines tâches spécifiques, leur capacité à “voir” reste limitée et ne correspond pas à une véritable compréhension visuelle. Cette étude met en lumière la nécessité de continuer à évaluer et à améliorer ces technologies pour mieux comprendre leurs capacités et leurs limites.

Caroline
Caroline
"Caroline est une rédactrice passionnée et visionnaire pour 2051.fr, où elle explore les frontières de l'innovation et de la technologie. Elle possède une expertise particulière en intelligence artificiel, ce qui enrichit ses articles d'analyses perspicaces et de perspectives avant-gardistes. Avec une curiosité insatiable pour les évolutions technologiques et leur impact sur la société, Caroline s'engage à dévoiler les tendances émergentes qui dessineront notre avenir. Ses écrits ne se contentent pas de présenter des faits ; ils invitent à la réflexion, offrant aux lecteurs une fenêtre sur le monde de demain. Sa capacité à lier les avancées scientifiques aux enjeux sociétaux fait de ses articles une lecture incontournable pour ceux qui s'intéressent à l'avenir de notre planète."

Partager cet article

Actualités

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici