Phi 4
Phi 4 est un LLM Microsoft open-weights sous licence MIT, publié le 12 décembre 2024 avec usage commercial autorisé. Avec 15 milliards de paramètres et une fenêtre de contexte de 16 384 tokens, il appartient à une catégorie de modèles compacts plutôt que frontière.
Phi 4 est un LLM Microsoft open-weights sous licence MIT, publié le 12 décembre 2024 avec usage commercial autorisé. Avec 15 milliards de paramètres et une fenêtre de contexte de 16 384 tokens, il appartient à une catégorie de modèles compacts plutôt que frontière.
Son ancienneté, environ 2 ans, est très longue à l’échelle de l’IA. Phi 4 se lit donc surtout comme un modèle de sa génération : à sa sortie, il se plaçait dans le top 8% des LLM comparables sur GPQA diamond, tout en affichant un positionnement tarifaire très économique.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Microsoft |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 12 décembre 2024 |
| Connaissances jusqu'à | 2024-06-01 |
| Multimodal | non |
| Paramètres | 15 milliards |
| Fenêtre de contexte | 16 384 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 96,8 % | 165ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 94,0 % | 217ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 64,9 % | 36ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 56,1 % | 72ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 50,0 % | 188ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 13,8 % | 77ᵉ / 111 | epoch | ✅ Mesuré |
| MMLU | 84,8 % | 43ᵉ / 98 | llm-stats | Auto-déclaré |
| HumanEval+ | 82,8 % | 5ᵉ / 10 | llm-stats | Auto-déclaré |
| HumanEval | 82,6 % | 40ᵉ / 65 | llm-stats | Auto-déclaré |
| MGSM | 80,6 % | 18ᵉ / 30 | llm-stats | Auto-déclaré |
| MATH | 80,4 % | 19ᵉ / 70 | llm-stats | Auto-déclaré |
| DROP | 75,5 % | 18ᵉ / 29 | llm-stats | Auto-déclaré |
| Arena Hard | 75,4 % | 9ᵉ / 26 | llm-stats | Auto-déclaré |
| MMLU-Pro | 70,4 % | 78ᵉ / 125 | llm-stats | Auto-déclaré |
| IFEval | 63,0 % | 62ᵉ / 65 | llm-stats | Auto-déclaré |
| PhiBench | 56,2 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| GPQA | 56,1 % | 146ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveBench | 47,6 % | 36ᵉ / 38 | llm-stats | Auto-déclaré |
| SimpleQA | 3,0 % | 43ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,07 $ | 0,14 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 69 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 3 min 35 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Phi 4 se distingue d’abord par son rapport coût-performance : sa tarification est indiquée comme très économique, largement sous la moyenne des LLM similaires et nettement inférieure à celle des modèles frontière. À sa sortie, il appartenait au haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats Benchable sont particulièrement solides en Ethics (Baseline), où il atteint le tout premier rang du corpus mesuré, et restent élevés en General Knowledge et Hallucinations. Son format open-weights sous licence MIT renforce aussi son intérêt pour des usages commerciaux nécessitant un modèle exploitable hors d’une offre strictement propriétaire.
Limites et points d’attention. Phi 4 est un modèle ancien au rythme actuel du secteur : ses performances sont aujourd’hui largement dépassées par des modèles plus récents, et il est souvent retiré du catalogue de l’éditeur. Sa base de connaissances s’arrête au 1er juin 2024, ce qui limite sa pertinence sur l’actualité et les domaines ayant évolué depuis. Ses classements en Email Classification et GPQA diamond restent inégaux face à l’ensemble des modèles évalués, malgré une bonne position relative à sa sortie. La fenêtre de 16 384 tokens est correcte pour sa période, mais ne correspond plus aux standards les plus ambitieux des modèles récents.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).