Microsoft

Phi 4

Phi 4 est un LLM Microsoft open-weights sous licence MIT, publié le 12 décembre 2024 avec usage commercial autorisé. Avec 15 milliards de paramètres et une fenêtre de contexte de 16 384 tokens, il appartient à une catégorie de modèles compacts plutôt que frontière.

Son ancienneté, environ 2 ans, est très longue à l’échelle de l’IA. Phi 4 se lit donc surtout comme un modèle de sa génération : à sa sortie, il se plaçait dans le top 8% des LLM comparables sur GPQA diamond, tout en affichant un positionnement tarifaire très économique.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Microsoft
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	12 décembre 2024
Connaissances jusqu'à	2024-06-01
Multimodal	non
Paramètres	15 milliards
Fenêtre de contexte	16 384 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	96,8 %	165ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	94,0 %	217ᵉ / 254	benchable	✅ Mesuré
Epoch: MATH level 5	64,9 %	36ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	56,1 %	72ᵉ / 132	epoch	✅ Mesuré
Benchable : Reasoning (Baseline)	50,0 %	188ᵉ / 239	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	13,8 %	77ᵉ / 111	epoch	✅ Mesuré
MMLU	84,8 %	43ᵉ / 98	llm-stats	Auto-déclaré
HumanEval+	82,8 %	5ᵉ / 10	llm-stats	Auto-déclaré
HumanEval	82,6 %	40ᵉ / 65	llm-stats	Auto-déclaré
MGSM	80,6 %	18ᵉ / 30	llm-stats	Auto-déclaré
MATH	80,4 %	19ᵉ / 70	llm-stats	Auto-déclaré
DROP	75,5 %	18ᵉ / 29	llm-stats	Auto-déclaré
Arena Hard	75,4 %	9ᵉ / 26	llm-stats	Auto-déclaré
MMLU-Pro	70,4 %	78ᵉ / 125	llm-stats	Auto-déclaré
IFEval	63,0 %	62ᵉ / 65	llm-stats	Auto-déclaré
PhiBench	56,2 %	3ᵉ / 3	llm-stats	Auto-déclaré
GPQA	56,1 %	146ᵉ / 213	llm-stats	Auto-déclaré
LiveBench	47,6 %	36ᵉ / 38	llm-stats	Auto-déclaré
SimpleQA	3,0 %	43ᵉ / 45	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Phi 4100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nova-pro-v198 %

▶ Phi 497 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,07 $	0,14 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 69 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	3 min 35 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Phi 4 se distingue d’abord par son rapport coût-performance : sa tarification est indiquée comme très économique, largement sous la moyenne des LLM similaires et nettement inférieure à celle des modèles frontière. À sa sortie, il appartenait au haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats Benchable sont particulièrement solides en Ethics (Baseline), où il atteint le tout premier rang du corpus mesuré, et restent élevés en General Knowledge et Hallucinations. Son format open-weights sous licence MIT renforce aussi son intérêt pour des usages commerciaux nécessitant un modèle exploitable hors d’une offre strictement propriétaire.

Limites et points d’attention. Phi 4 est un modèle ancien au rythme actuel du secteur : ses performances sont aujourd’hui largement dépassées par des modèles plus récents, et il est souvent retiré du catalogue de l’éditeur. Sa base de connaissances s’arrête au 1er juin 2024, ce qui limite sa pertinence sur l’actualité et les domaines ayant évolué depuis. Ses classements en Email Classification et GPQA diamond restent inégaux face à l’ensemble des modèles évalués, malgré une bonne position relative à sa sortie. La fenêtre de 16 384 tokens est correcte pour sa période, mais ne correspond plus aux standards les plus ambitieux des modèles récents.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Phi 4

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast