En réponse aux critiques de la communauté des développeurs, Google déploie une nouvelle fonctionnalité baptisée « implicit caching » dans son API Gemini.
Cette nouveauté vise à rendre l’accès à ses modèles d’IA les plus récents, notamment Gemini 2.5 Pro et Flash, plus abordable en automatisant la mise en cache des requêtes répétitives.
Lire aussi :
- L’innovation d’Amazon avec ce robot d’entrepôt marquera-t-elle un tournant dans l’efficacité et la sécurité des opérations logistiques ?
- Le plan de restructuration d’OpenAI : permettra-t-elle à l’entreprise de se développer tout en maintenant son engagement philanthropique ?
Une réduction automatique des coûts pour les requêtes répétitives
Jusqu’à présent, Google proposait uniquement une mise en cache explicite, exigeant des développeurs qu’ils identifient manuellement les requêtes les plus fréquentes à sauvegarder. Bien que cette solution ait théoriquement permis de réduire les frais, elle s’est révélée lourde à gérer, et certains développeurs ont constaté des factures API anormalement élevées, en particulier avec Gemini 2.5 Pro. Face à ces critiques croissantes, Google a réagi rapidement en annonçant l’activation d’un système de cache implicite, conçu pour fonctionner automatiquement sans intervention humaine.
Avec l’implicit caching, dès qu’une requête partage un préfixe commun avec une requête antérieure, elle devient éligible à une « cache hit » — une correspondance avec des données déjà traitées — entraînant des économies dynamiques sur les coûts. Selon Google, cette technologie peut permettre jusqu’à 75 % d’économies sur les contextes répétitifs.
Comment fonctionne ce nouveau système ?
La mise en cache implicite s’appuie sur le traitement des tokens, les unités de données manipulées par les modèles. Pour activer la mise en cache automatique, une requête doit contenir au minimum 1 024 tokens pour Gemini 2.5 Flash ou 2 048 tokens pour Gemini 2.5 Pro. À titre de comparaison, 1 000 tokens équivalent à environ 750 mots, ce qui signifie que les économies peuvent s’appliquer même à des requêtes relativement courtes.
Pour maximiser les bénéfices de cette fonctionnalité, Google conseille de placer le contenu répétitif en début de requête et de réserver la fin pour les éléments variables. Cette structure augmente les chances de déclencher une cache hit, et donc, de bénéficier des réductions.
Un système prometteur, mais à surveiller
Malgré ces annonces alléchantes, Google n’a fourni aucune validation indépendante des économies promises avec ce nouveau système. L’absence de vérification tierce incite à la prudence, d’autant plus que la mise en cache explicite avait suscité de nombreuses désillusions. Les développeurs sont donc encouragés à tester cette nouveauté par eux-mêmes et à surveiller attentivement leurs factures API dans les semaines à venir.
Un pas vers une IA plus accessible
Avec l’introduction de l’implicit caching, Google montre sa volonté de répondre aux besoins des développeurs en rendant ses modèles plus accessibles financièrement. Si cette solution tient ses promesses, elle pourrait bien devenir un standard dans la gestion des modèles d’IA à forte charge contextuelle. Toutefois, seuls les retours des premiers utilisateurs permettront d’évaluer sa véritable efficacité.

