Jules GinhacCo-Founder & ingénieur IA

Je suis Jules Ginhac, Co-Founder & ingénieur IA chez Apogée Consult à Lyon. Je conçois et déploie des architectures IA génératives (RAG, agents, LLMOps) pour des PME, startups et organisations publiques.

18 juin 2025

Les tâches où un petit modèle open-source bat encore GPT-4o, malgré les apparences

llm-comparison

GPT-4o n'est pas optimal sur tout. Sur certaines tâches de classification, extraction courte et structuration, Phi-4 ou Qwen2.5 font mieux, et pour moins cher.

Les tâches où un petit modèle open-source bat encore GPT-4o, malgré les apparences

L'idée reçue est que GPT-4o gagne sur tout. C'est faux, et nous l'avons appris en production.

Il existe une catégorie de tâches où un modèle bien fine-tuné ou bien instruit, avec moins de 15 milliards de paramètres, dépasse GPT-4o en précision tout en coûtant un à deux ordres de grandeur de moins. Ce n'est pas de la promotion de l'open-source pour des raisons idéologiques, c'est du pragmatisme économique.

Les tâches concernées

Classification courte sur domaine fermé

Classifier un texte dans un ensemble de catégories fixes (moins de 50 labels), surtout quand le domaine est spécifique et le texte court.

Un modèle comme Qwen2.5-7B fine-tuné sur 2000 exemples labellisés atteint systématiquement 94-97% de précision sur ce type de tâche. GPT-4o zero-shot est à 89-93% sur les mêmes jeux de test, avec une variance plus haute.

La raison : GPT-4o est entraîné à être utile dans de nombreux contextes et hésite davantage sur les catégories proches. Un modèle fine-tuné sur le domaine n'a pas cette distraction.

Extraction de champs courts et formulaires

Extraire 5 à 10 champs structurés depuis un texte court (e-mail, formulaire, fiche produit). Le modèle n'a pas besoin de raisonner, il doit identifier et copier.

Nous avons comparé Phi-4 (14B) à GPT-4o sur l'extraction de données depuis des e-mails de commande B2B en français. Phi-4 avec un prompt bien structuré atteint 96% d'exact match sur les champs numériques (quantités, références produit). GPT-4o est à 94% sur le même corpus.

L'écart est faible, mais le coût ne l'est pas.

Génération de texte court et formaté

Générer des descriptions produit normalisées, des objets d'e-mail, des titres SEO, des textes courts avec contraintes de format fortes.

Sur ce type de tâche avec quelques dizaines d'exemples en few-shot, les petits modèles récents (Qwen2.5-14B, Phi-4) produisent des sorties qui respectent mieux les contraintes de longueur et de structure que GPT-4o, qui a tendance à sur-développer.

# Exemple : extraction avec Qwen2.5-7B via API locale (vLLM)
import httpx

async def extract_order(email_text: str) -> dict:
    prompt = f"""Extrais les informations suivantes de cet e-mail de commande.
Réponds UNIQUEMENT en JSON valide, sans texte autour.

Champs à extraire :
- reference_produit (string)
- quantite (integer)
- date_livraison_souhaitee (date ISO 8601 ou null)
- contact_email (string ou null)

E-mail :
{email_text}"""

    response = await httpx.AsyncClient().post(
        "http://localhost:8000/v1/completions",
        json={
            "model": "Qwen/Qwen2.5-7B-Instruct",
            "prompt": prompt,
            "max_tokens": 256,
            "temperature": 0.0,
        },
        timeout=10.0,
    )
    return response.json()["choices"][0]["text"]

Ce que GPT-4o fait mieux, sans ambiguïté

GPT-4o reste supérieur sur les tâches qui nécessitent du raisonnement multi-étapes, de la cohérence sur long contexte, de la gestion d'instructions contradictoires, ou de la créativité contrôlée.

Un petit modèle sur des questions de raisonnement logique complexe ou de compréhension de code dense dégrade vite. Ce n'est pas une opinion, c'est visible sur Open LLM Leaderboard sur les benchmarks de raisonnement (GSM8K, MATH, ARC-Challenge).

La décision économique réelle

Le coût de l'inférence GPT-4o via API en mai 2025 est de $2.50 / 1M tokens input et $10.00 / 1M tokens output (source : pricing OpenAI). Un modèle self-hosted sur GPU cloud ou via Groq est entre 10 et 50 fois moins cher à volume équivalent.

Pour 1 million de courtes extractions par mois (moyenne 500 tokens/appel), la différence est de l'ordre de $1 000 à $5 000 par mois. Ce n'est pas marginal pour une PME ou un SaaS early-stage.

Notre approche en pratique

Nous qualifions systématiquement les tâches en trois catégories avant de choisir un modèle :

Tâche de routine + domaine fermé + volume élevé → petit modèle open-source, fine-tuné si budget disponible.
Tâche de raisonnement ou d'ambiguïté + faible volume → GPT-4o ou Claude.
Tâche hybride → route intelligente selon complexité estimée du document.

La route intelligente est elle-même implémentée avec un petit modèle de classification.

La vraie limite de cette approche reste le coût de maintenance : un modèle fine-tuné doit être retrained quand le domaine évolue. Le seuil à partir duquel ce coût dépasse les économies réalisées dépend du rythme de dérive du domaine, et c'est rarement modélisé à l'avance.

Les tâches où un petit modèle open-source bat encore GPT-4o, malgré les apparences

Les tâches où un petit modèle open-source bat encore GPT-4o, malgré les apparences

Les tâches concernées

Classification courte sur domaine fermé

Extraction de champs courts et formulaires

Génération de texte court et formaté

Ce que GPT-4o fait mieux, sans ambiguïté

La décision économique réelle

Notre approche en pratique

Un projet à concrétiser ?Parlons-en, sans engagement.

Un projet à concrétiser ?
Parlons-en, sans engagement.