Apogée Consult
Retour au blog
Jules Ginhac
Jules GinhacCo-Founder & ingénieur IA

Je suis Jules Ginhac, Co-Founder & ingénieur IA chez Apogée Consult à Lyon. Je conçois et déploie des architectures IA génératives (RAG, agents, LLMOps) pour des PME, startups et organisations publiques.

Open-source vs API propriétaire : TCO réel sur 18 mois pour une feature IA modérée

  • ia-produit

Build vs buy sur l'IA : le calcul change selon le volume, la taille de l'équipe et le niveau d'expertise. Voici le TCO réel qu'on a mesuré sur 18 mois, sans optimisme.

Open-source vs API propriétaire : TCO réel sur 18 mois pour une feature IA modérée

Quand un client nous demande "pourquoi on n'utilise pas Llama plutôt que GPT, ce serait moins cher", la réponse honnête est : ça dépend du volume, de l'équipe, et de ce qu'on appelle "moins cher". Sur l'infrastructure pure, un LLM self-hosted peut être 3 à 5 fois moins coûteux à l'inférence. Sur le TCO réel à 18 mois, en comptant l'ingénierie, la maintenance, la gestion des mises à jour et les compromis de performance, le calcul est souvent différent.

Ce texte documente un calcul réel sur une feature de classification documentaire déployée en production.

Le contexte de la comparaison

La feature : classification automatique de documents B2B entrants (devis, contrats, factures, correspondances) avec extraction de champs structurés. Environ 50 000 documents traités par mois, latence cible de 3 secondes, précision cible de 92 %.

Les deux options comparées :

  • Option A : GPT-4o-mini via l'API OpenAI
  • Option B : Mistral 7B Instruct fine-tuné, hébergé sur infrastructure dédiée (AWS g5.xlarge)

La période : 18 mois, janvier 2024 - juin 2025.

Option A : API propriétaire, les coûts réels

Coûts d'inférence

GPT-4o-mini à 0.15 $/1M tokens input et 0.60 $/1M tokens output (tarifs début 2024, avant les baisses successives).

Chaque document : ~800 tokens input (document + prompt système) + ~200 tokens output (JSON structuré).

50 000 docs/mois × (800 × 0.15 + 200 × 0.60) / 1 000 000 = 50 000 × (0.00012 + 0.00012) = 12 $/mois

Coût inférence sur 18 mois : 216 $

Coûts d'intégration et maintenance

  • Développement initial (prompt engineering, tests, intégration) : 6 jours ingénieur
  • Maintenance sur 18 mois : environ 1 jour/mois pour les ajustements de prompt, monitoring, gestion des changements de version API

Total ingénierie : 6 + 18 = 24 jours ingénieur. À un coût interne de 500 $/jour (salaire chargé) : 12 000 $

Coût total Option A sur 18 mois : ~12 216 $

Option B : Self-hosted open-source, les coûts réels

Infrastructure GPU

Instance AWS g5.xlarge : 1 GPU A10G 24GB, 4 vCPU, 16 GB RAM. Coût on-demand : ~1.006 $/heure, soit ~730 $/mois. Avec Reserved Instance 1 an : ~430 $/mois.

Sur 18 mois (6 mois on-demand pendant le ramp-up, 12 mois reserved) : 6 × 730 + 12 × 430 = 8 940 $

Fine-tuning initial

Mistral 7B en full fine-tune nécessite au moins 2 × A100 80GB pendant ~8 heures. En spot sur AWS : ~6 $/heure × 2 GPU × 8h = 96 $ de compute.

Mais le vrai coût est la préparation des données : construction du jeu d'entraînement (annotation de 2 000 exemples), nettoyage, format, évaluation. Environ 12 jours ingénieur + annotation : 6 500 $

Re-fine-tuning et mises à jour

Un modèle fine-tuné se dégrade quand la distribution des documents change. On a dû refaire un cycle de fine-tuning à 9 mois (nouvelles catégories de documents). Coût : ~8 jours ingénieur + compute = 4 100 $

Ingénierie d'infrastructure

Déploiement initial (serving avec vLLM, load balancer, healthchecks, monitoring GPU) : 8 jours ingénieur. Maintenance mensuelle (mises à jour OS, gestion des pannes, optimisation) : environ 1,5 jours/mois.

Total ingénierie infrastructure sur 18 mois : 8 + 27 = 35 jours × 500 $/jour = 17 500 $

Coût total Option B sur 18 mois : ~37 136 $

La comparaison brute

PosteOption A (API)Option B (Self-hosted)
Inférence / infrastructure216 $8 940 $
Développement initial3 000 $6 500 $
Fine-tuning et données0 $6 596 $
Maintenance ingénierie9 000 $17 500 $
Re-entraînement0 $4 100 $
Total 18 mois12 216 $37 136 $

À 50 000 documents par mois, l'API propriétaire est environ 3 fois moins chère sur 18 mois.

Quand le calcul s'inverse

Le calcul change à plusieurs volumes ou dans plusieurs contextes.

À volume élevé. Si on passe à 2 millions de documents par mois, les coûts d'inférence de l'Option A montent à ~500 $/mois soit 9 000 $ sur 18 mois. L'Option B reste à ~8 940 $ d'infrastructure (le GPU est dimensionné pour ce volume). Les coûts totaux convergent, et au-delà d'environ 5 millions de docs/mois, le self-hosted devient moins cher même en comptant l'ingénierie.

Sur des données sensibles. Sur des données médicales, juridiques, ou financières soumises à des contraintes réglementaires strictes (RGPD, NDA, secrets industriels), l'Option B peut être non-négociable indépendamment du coût. Certains clients refusent de voir leurs données traverser une API externe, même avec des DPA signés.

Avec une équipe MLOps existante. Si l'organisation a déjà une infrastructure ML et une équipe compétente, le coût marginal d'ajout d'un modèle self-hosted est bien inférieur à nos hypothèses. L'Option B devient compétitive plus tôt.

Sur des modèles spécialisés. Un modèle de base généraliste ne bat pas toujours un modèle open-source fine-tuné sur un domaine de niche. Sur notre cas de classification documentaire, le Mistral 7B fine-tuné atteignait 94 % de précision vs 91 % pour GPT-4o-mini sur notre jeu d'évaluation. Si la précision est une contrainte dure, le TCO n'est plus le seul critère.

Ce que le calcul ne capture pas

Le coût de la dépendance fournisseur. OpenAI a changé ses tarifs, ses modèles, et ses conditions trois fois en 18 mois. Chaque changement de version a nécessité des tests de régression et des ajustements de prompt. Ce n'est pas catastrophique, mais ce n'est pas gratuit.

Le risque de disponibilité. L'API OpenAI a connu plusieurs incidents en 2024. Pour des usages critiques avec des SLA élevés, le self-hosted donne plus de contrôle, mais transfère la responsabilité de la disponibilité à l'équipe.

La vélocité. Un prototype avec une API prend 2 jours. Un prototype self-hosted prend 2 semaines. Pour de l'exploration et de la validation d'hypothèse, l'API propriétaire permet d'avancer plus vite, ce qui a une valeur réelle.

Notre recommandation actuelle

Commencer par une API propriétaire, systématiquement. C'est moins risqué, plus rapide, et moins coûteux à faible volume. Évaluer le self-hosted quand au moins deux des conditions suivantes sont réunies :

  • Volume d'inférence > 1 M requêtes/mois
  • Contraintes de confidentialité des données
  • Équipe MLOps existante avec expérience GPU
  • Performance requise non atteignable avec les modèles disponibles via API

Le build vs buy IA n'est pas un choix idéologique. C'est un calcul, et ce calcul évolue avec le volume, la maturité des équipes, et les prix du marché qui baissent tous les 6 à 9 mois.

La question qu'on laisse ouverte : comment change ce calcul avec l'émergence des API d'inférence spécialisées (Together AI, Fireworks, Groq) qui proposent des modèles open-source via API à des prix proches du self-hosted, sans la charge opérationnelle ?

Disponible pour de nouveaux projets

Un projet à concrétiser ?
Parlons-en, sans engagement.

Un échange de 30 minutes pour cadrer votre besoin, qualifier la faisabilité et vous proposer une trajectoire claire.

1// kick-off : réponse sous 24h
2const project = await apogee.scope({
3 type: 'web | mobile | IA',
4 timeline: '6 à 16 semaines',
5 approach: 'sur-mesure'
6})
7// → cadrage offert
TCO LLM open source vs API : comparatif 18 mois | Apogée Consult