Les modèles d’IA générative de Google, Gemini 1.5 Pro et 1.5 Flash, ont été largement vantés pour leur capacité à traiter et analyser d’énormes quantités de données.
Google a affirmé que ces modèles pouvaient accomplir des tâches auparavant jugées impossibles grâce à leur long contexte, permettant par exemple de résumer des documents de plusieurs centaines de pages ou de rechercher des scènes spécifiques dans des séquences de films. Cependant, des études récentes suggèrent que ces modèles ne tiennent pas leurs promesses.
Lire aussi :
- Comment Google gère-t-il les différents dialectes dans ses traductions pour assurer précision et inclusion?
- Pourquoi Google a-t-il décidé de suspendre l’expérimentation des jeux d’argent réels sur le Play Store ?
Des performances décevantes
Deux études indépendantes ont examiné les capacités des modèles Gemini à comprendre et analyser de grandes quantités de données. Les chercheurs ont constaté que les modèles Gemini 1.5 Pro et 1.5 Flash avaient des difficultés à répondre correctement aux questions sur de vastes ensembles de données. Par exemple, dans une série de tests portant sur des documents de plusieurs centaines de pages, les modèles n’ont répondu correctement que dans 40 à 50 % des cas. Ces résultats indiquent une surévaluation significative des capacités des modèles par Google.
La version Gemini 1.5 Pro dévoilée : La réponse de Google à l’entreprise OpenAI !
Limitations des fenêtres contextuelles
La fenêtre contextuelle d’un modèle fait référence aux données d’entrée (texte, vidéo, audio) que le modèle prend en compte avant de générer une réponse. Les dernières versions de Gemini peuvent traiter jusqu’à 2 millions de tokens, ce qui équivaut à environ 1,4 million de mots ou deux heures de vidéo. Cependant, malgré cette capacité technique, les modèles ont montré des lacunes importantes dans la compréhension et l’analyse de ce contenu. Une étude menée par des chercheurs de l’Université du Massachusetts Amherst a révélé que, bien que les modèles puissent traiter de longs contextes, ils ne comprennent souvent pas le contenu de manière significative.
Un besoin de Benchmarks plus rigoureux
Ces études soulignent la nécessité de benchmarks plus rigoureux et de critiques approfondies de la part de tiers. Les benchmarks actuels sont souvent inadéquats pour évaluer réellement les capacités des modèles à traiter de longs contextes. Les chercheurs appellent à une meilleure transparence de la part des entreprises qui développent ces modèles. Ils suggèrent également que les affirmations des entreprises concernant les capacités de leurs modèles doivent être prises avec précaution, car les performances réelles peuvent être nettement inférieures aux promesses marketing.
En conclusion, bien que les modèles Gemini 1.5 Pro et 1.5 Flash de Google soient techniquement capables de traiter de grands ensembles de données, leurs capacités réelles à comprendre et analyser ces données sont limitées. Les études récentes montrent que ces modèles ne répondent correctement aux questions sur de longues portions de texte que dans 40 à 50 % des cas. Il est donc essentiel de continuer à évaluer ces modèles de manière critique et de développer des benchmarks plus rigoureux pour mesurer leurs performances réelles.