Apogée Consult
Retour au blog
Jules Ginhac
Jules GinhacCo-Founder & ingénieur IA

Je suis Jules Ginhac, Co-Founder & ingénieur IA chez Apogée Consult à Lyon. Je conçois et déploie des architectures IA génératives (RAG, agents, LLMOps) pour des PME, startups et organisations publiques.

Gemini Flash sur long contexte : le coût caché qu'on ne voit qu'en facturation mensuelle

  • llm-comparison

Le contexte 1M de Gemini Flash impressionne sur le papier. En production, le modèle de tarification par token réserve des surprises à la première facture.

Gemini Flash sur long contexte : le coût caché qu'on ne voit qu'en facturation mensuelle

La fenêtre de contexte de 1 million de tokens de Gemini 1.5 Flash est réelle et fonctionnelle. Mais "fonctionnel" et "économique" ne sont pas synonymes, et la différence ne s'observe qu'à la deuxième facture.

Pourquoi le long contexte séduit

La promesse est claire : passer un document entier dans le contexte, poser des questions sans chunking, sans retrieval, sans pipeline RAG. C'est plus simple à développer, plus rapide à prototyper, et potentiellement plus précis puisqu'on évite les erreurs de retrieval.

Pour certains cas d'usage ponctuels, analyse d'un rapport unique, revue de contrat, question ad hoc sur un corpus fermé, l'argument tient.

La structure de tarification qu'on sous-estime

En juillet 2025, Gemini 1.5 Flash est tarifé ainsi (source : Google AI pricing) :

  • Prompts jusqu'à 128K tokens : $0.075 / 1M tokens input
  • Prompts au-delà de 128K tokens : $0.15 / 1M tokens input

Le doublement du prix au-delà de 128K tokens est le premier piège. Le deuxième est plus subtil : le contexte est facturé à chaque appel, pas une seule fois.

L'exemple concret de dérive de coût

Prenons un cas réel : un système de Q&A sur une documentation technique de 300 000 tokens (environ 240 pages). L'utilisateur pose en moyenne 12 questions par session.

Sans caching :

  • Chaque question envoie les 300K tokens de contexte + la question.
  • Coût par question : 300 000 tokens × $0.15 / 1M = $0.045
  • Coût par session de 12 questions : $0.54
  • Pour 1 000 sessions/mois : $540 / mois

Avec GPT-4o-mini sur un RAG classique (8 chunks de 500 tokens) :

  • Coût par question : 4 000 tokens × $0.15 / 1M = $0.0006
  • Coût par session de 12 questions : $0.0072
  • Pour 1 000 sessions/mois : $7.20 / mois

L'écart est de 75x. Ce n'est pas un détail de déploiement, c'est un ordre de grandeur.

Context caching : la réponse partielle de Google

Google propose un mécanisme de context caching qui permet de pré-cacher un préfixe de contexte et de le réutiliser sur plusieurs appels. Le contexte caché est facturé à un tarif réduit ($0.01875/1M tokens/heure de cache).

C'est réel et utile. Mais il faut que le préfixe soit identique sur tous les appels, le moindre changement invalide le cache. Et la durée de cache minimale facturée est d'une heure, même si vous ne faites qu'un appel.

En pratique, le caching fonctionne bien pour des sessions longues sur un contexte fixe. Il ne fonctionne pas si le contexte varie d'un utilisateur à l'autre, ou si le document source est mis à jour fréquemment.

Ce que nous faisons en production

Nous utilisons Gemini 1.5 Flash long contexte dans deux situations uniquement :

  • Analyse one-shot d'un document volumineux pour un workflow humain (pas d'appels répétés).
  • Sessions de travail avec caching activé sur un corpus fixe de moins de 500K tokens, avec garantie que le contexte ne change pas pendant la durée du cache.

Pour tout le reste, Q&A à la volée, extraction à volume, chatbots, nous restons sur un pipeline RAG classique avec un modèle moins coûteux.

La question que le long contexte ne règle pas : même avec un budget illimité, envoyer 300K tokens à chaque question produit-il vraiment de meilleures réponses qu'un retrieval bien fait ? Sur les documents longs avec informations denses, les modèles ont tendance à sur-pondérer les passages du début et de la fin du contexte (phénomène documenté dans "Lost in the Middle", Liu et al., 2023). La précision réelle peut décevoir.

Disponible pour de nouveaux projets

Un projet à concrétiser ?
Parlons-en, sans engagement.

Un échange de 30 minutes pour cadrer votre besoin, qualifier la faisabilité et vous proposer une trajectoire claire.

1// kick-off : réponse sous 24h
2const project = await apogee.scope({
3 type: 'web | mobile | IA',
4 timeline: '6 à 16 semaines',
5 approach: 'sur-mesure'
6})
7// → cadrage offert
Gemini Flash coût long contexte production | Apogée Consult