Microsoft

Phi 4 Reasoning

Phi 4 Reasoning est un LLM de Microsoft publié le 30 avril 2025. Déjà âgé d’environ un an, il appartient à une génération désormais ancienne à l’échelle de l’IA, où les écarts de performance se creusent vite avec les modèles plus récents.

Le modèle se distingue surtout par son statut open-weights sous licence MIT, avec usage commercial autorisé. Avec 14 milliards de paramètres, une fenêtre de contexte de 32 768 tokens et des connaissances arrêtées au 1er mars 2025, il se situe comme un modèle compact et documenté de sa période.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Microsoft
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	30 avril 2025
Connaissances jusqu'à	2025-03-01
Multimodal	non
Paramètres	14 milliards
Fenêtre de contexte	32 768 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
HumanEval+	92,9 %	1ᵉ / 10	llm-stats	Auto-déclaré
IFEval	83,4 %	45ᵉ / 65	llm-stats	Auto-déclaré
AIME 2024	75,3 %	33ᵉ / 52	llm-stats	Auto-déclaré
MMLU-Pro	74,3 %	70ᵉ / 125	llm-stats	Auto-déclaré
Arena Hard	73,3 %	10ᵉ / 26	llm-stats	Auto-déclaré
PhiBench	70,6 %	2ᵉ / 3	llm-stats	Auto-déclaré
GPQA	65,8 %	128ᵉ / 213	llm-stats	Auto-déclaré
AIME 2025	62,9 %	89ᵉ / 108	llm-stats	Auto-déclaré
LiveCodeBench	53,8 %	38ᵉ / 72	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. À sa sortie, Phi 4 Reasoning figurait dans le top 29% sur GPQA parmi 92 LLM de la même période, dans une fenêtre de comparaison de plus ou moins neuf mois. Ce résultat le place dans le haut de sa génération sur ce benchmark, sans le présenter comme un modèle de tout premier rang. Sa licence MIT constitue aussi un atout concret : les poids ouverts et l’usage commercial autorisé facilitent l’intégration, l’audit et l’adaptation dans des environnements où la maîtrise du modèle compte davantage que l’accès à une API propriétaire.

Limites et points d’attention. Son ancienneté pèse fortement : un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents. Il peut aussi ne plus être proposé activement dans les catalogues actuels de l’éditeur, ce qui limite son intérêt comme choix principal pour de nouveaux déploiements. Sa coupure de connaissances au 1er mars 2025 impose enfin une vigilance sur les sujets postérieurs à cette date. Les informations disponibles reposent sur deux sources concordantes.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai).

Phi 4 Reasoning

Caractéristiques

Performances (benchmarks)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast