Comment les entreprises technologiques peuvent-elles améliorer les capacités visuelles des modèles d’IA pour qu’ils correspondent mieux à la compréhension humaine ?

Les derniers modèles de langage, tels que GPT-4o et Gemini 1.5 Pro, sont souvent présentés comme multimodaux, capables de comprendre les images et les sons en plus du texte. Cependant, une nouvelle étude révèle que ces modèles ne voient pas vraiment comme on pourrait s’y attendre. En fait, ils pourraient ne pas voir du tout. … Lire la suite de Comment les entreprises technologiques peuvent-elles améliorer les capacités visuelles des modèles d’IA pour qu’ils correspondent mieux à la compréhension humaine ?