Phi 4 Reasoning

Phi 4 Reasoning est un LLM de Microsoft publié le 30 avril 2025. Déjà âgé d’environ un an, il appartient à une génération désormais ancienne à l’échelle de l’IA, où les écarts de performance se creusent vite avec les modèles plus récents.

Phi 4 Reasoning est un LLM de Microsoft publié le 30 avril 2025. Déjà âgé d’environ un an, il appartient à une génération désormais ancienne à l’échelle de l’IA, où les écarts de performance se creusent vite avec les modèles plus récents.

Le modèle se distingue surtout par son statut open-weights sous licence MIT, avec usage commercial autorisé. Avec 14 milliards de paramètres, une fenêtre de contexte de 32 768 tokens et des connaissances arrêtées au 1er mars 2025, il se situe comme un modèle compact et documenté de sa période.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMicrosoft
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie30 avril 2025
Connaissances jusqu'à2025-03-01
Multimodalnon
Paramètres14 milliards
Fenêtre de contexte32 768 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
HumanEval+92,9 %1ᵉ / 10llm-statsAuto-déclaré
IFEval83,4 %45ᵉ / 65llm-statsAuto-déclaré
AIME 202475,3 %33ᵉ / 52llm-statsAuto-déclaré
MMLU-Pro74,3 %70ᵉ / 125llm-statsAuto-déclaré
Arena Hard73,3 %10ᵉ / 26llm-statsAuto-déclaré
PhiBench70,6 %2ᵉ / 3llm-statsAuto-déclaré
GPQA65,8 %128ᵉ / 213llm-statsAuto-déclaré
AIME 202562,9 %89ᵉ / 108llm-statsAuto-déclaré
LiveCodeBench53,8 %38ᵉ / 72llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. À sa sortie, Phi 4 Reasoning figurait dans le top 29% sur GPQA parmi 92 LLM de la même période, dans une fenêtre de comparaison de plus ou moins neuf mois. Ce résultat le place dans le haut de sa génération sur ce benchmark, sans le présenter comme un modèle de tout premier rang. Sa licence MIT constitue aussi un atout concret : les poids ouverts et l’usage commercial autorisé facilitent l’intégration, l’audit et l’adaptation dans des environnements où la maîtrise du modèle compte davantage que l’accès à une API propriétaire.

Limites et points d’attention. Son ancienneté pèse fortement : un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents. Il peut aussi ne plus être proposé activement dans les catalogues actuels de l’éditeur, ce qui limite son intérêt comme choix principal pour de nouveaux déploiements. Sa coupure de connaissances au 1er mars 2025 impose enfin une vigilance sur les sujets postérieurs à cette date. Les informations disponibles reposent sur deux sources concordantes.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai).