Phi 4 Reasoning
Phi 4 Reasoning est un LLM de Microsoft publié le 30 avril 2025. Déjà âgé d’environ un an, il appartient à une génération désormais ancienne à l’échelle de l’IA, où les écarts de performance se creusent vite avec les modèles plus récents.
Phi 4 Reasoning est un LLM de Microsoft publié le 30 avril 2025. Déjà âgé d’environ un an, il appartient à une génération désormais ancienne à l’échelle de l’IA, où les écarts de performance se creusent vite avec les modèles plus récents.
Le modèle se distingue surtout par son statut open-weights sous licence MIT, avec usage commercial autorisé. Avec 14 milliards de paramètres, une fenêtre de contexte de 32 768 tokens et des connaissances arrêtées au 1er mars 2025, il se situe comme un modèle compact et documenté de sa période.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Microsoft |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 30 avril 2025 |
| Connaissances jusqu'à | 2025-03-01 |
| Multimodal | non |
| Paramètres | 14 milliards |
| Fenêtre de contexte | 32 768 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| HumanEval+ | 92,9 % | 1ᵉ / 10 | llm-stats | Auto-déclaré |
| IFEval | 83,4 % | 45ᵉ / 65 | llm-stats | Auto-déclaré |
| AIME 2024 | 75,3 % | 33ᵉ / 52 | llm-stats | Auto-déclaré |
| MMLU-Pro | 74,3 % | 70ᵉ / 125 | llm-stats | Auto-déclaré |
| Arena Hard | 73,3 % | 10ᵉ / 26 | llm-stats | Auto-déclaré |
| PhiBench | 70,6 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| GPQA | 65,8 % | 128ᵉ / 213 | llm-stats | Auto-déclaré |
| AIME 2025 | 62,9 % | 89ᵉ / 108 | llm-stats | Auto-déclaré |
| LiveCodeBench | 53,8 % | 38ᵉ / 72 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Notre analyse
Forces. À sa sortie, Phi 4 Reasoning figurait dans le top 29% sur GPQA parmi 92 LLM de la même période, dans une fenêtre de comparaison de plus ou moins neuf mois. Ce résultat le place dans le haut de sa génération sur ce benchmark, sans le présenter comme un modèle de tout premier rang. Sa licence MIT constitue aussi un atout concret : les poids ouverts et l’usage commercial autorisé facilitent l’intégration, l’audit et l’adaptation dans des environnements où la maîtrise du modèle compte davantage que l’accès à une API propriétaire.
Limites et points d’attention. Son ancienneté pèse fortement : un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents. Il peut aussi ne plus être proposé activement dans les catalogues actuels de l’éditeur, ce qui limite son intérêt comme choix principal pour de nouveaux déploiements. Sa coupure de connaissances au 1er mars 2025 impose enfin une vigilance sur les sujets postérieurs à cette date. Les informations disponibles reposent sur deux sources concordantes.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai).