Phi 4

Phi 4 est un LLM Microsoft open-weights sous licence MIT, publié le 12 décembre 2024 avec usage commercial autorisé. Avec 15 milliards de paramètres et une fenêtre de contexte de 16 384 tokens, il appartient à une catégorie de modèles compacts plutôt que frontière.

Phi 4 est un LLM Microsoft open-weights sous licence MIT, publié le 12 décembre 2024 avec usage commercial autorisé. Avec 15 milliards de paramètres et une fenêtre de contexte de 16 384 tokens, il appartient à une catégorie de modèles compacts plutôt que frontière.

Son ancienneté, environ 2 ans, est très longue à l’échelle de l’IA. Phi 4 se lit donc surtout comme un modèle de sa génération : à sa sortie, il se plaçait dans le top 8% des LLM comparables sur GPQA diamond, tout en affichant un positionnement tarifaire très économique.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMicrosoft
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie12 décembre 2024
Connaissances jusqu'à2024-06-01
Multimodalnon
Paramètres15 milliards
Fenêtre de contexte16 384 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)96,8 %165ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)94,0 %217ᵉ / 254benchable✅ Mesuré
Epoch: MATH level 564,9 %36ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond56,1 %72ᵉ / 132epoch✅ Mesuré
Benchable : Reasoning (Baseline)50,0 %188ᵉ / 239benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202513,8 %77ᵉ / 111epoch✅ Mesuré
MMLU84,8 %43ᵉ / 98llm-statsAuto-déclaré
HumanEval+82,8 %5ᵉ / 10llm-statsAuto-déclaré
HumanEval82,6 %40ᵉ / 65llm-statsAuto-déclaré
MGSM80,6 %18ᵉ / 30llm-statsAuto-déclaré
MATH80,4 %19ᵉ / 70llm-statsAuto-déclaré
DROP75,5 %18ᵉ / 29llm-statsAuto-déclaré
Arena Hard75,4 %9ᵉ / 26llm-statsAuto-déclaré
MMLU-Pro70,4 %78ᵉ / 125llm-statsAuto-déclaré
IFEval63,0 %62ᵉ / 65llm-statsAuto-déclaré
PhiBench56,2 %3ᵉ / 3llm-statsAuto-déclaré
GPQA56,1 %146ᵉ / 213llm-statsAuto-déclaré
LiveBench47,6 %36ᵉ / 38llm-statsAuto-déclaré
SimpleQA3,0 %43ᵉ / 45llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Phi 4100 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
▶ Phi 497 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,07 $0,14 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 69 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable3 min 35 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Phi 4 se distingue d’abord par son rapport coût-performance : sa tarification est indiquée comme très économique, largement sous la moyenne des LLM similaires et nettement inférieure à celle des modèles frontière. À sa sortie, il appartenait au haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats Benchable sont particulièrement solides en Ethics (Baseline), où il atteint le tout premier rang du corpus mesuré, et restent élevés en General Knowledge et Hallucinations. Son format open-weights sous licence MIT renforce aussi son intérêt pour des usages commerciaux nécessitant un modèle exploitable hors d’une offre strictement propriétaire.

Limites et points d’attention. Phi 4 est un modèle ancien au rythme actuel du secteur : ses performances sont aujourd’hui largement dépassées par des modèles plus récents, et il est souvent retiré du catalogue de l’éditeur. Sa base de connaissances s’arrête au 1er juin 2024, ce qui limite sa pertinence sur l’actualité et les domaines ayant évolué depuis. Ses classements en Email Classification et GPQA diamond restent inégaux face à l’ensemble des modèles évalués, malgré une bonne position relative à sa sortie. La fenêtre de 16 384 tokens est correcte pour sa période, mais ne correspond plus aux standards les plus ambitieux des modèles récents.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).