Microsoft

Phi 4 Reasoning Plus

Phi 4 Reasoning Plus est un LLM de Microsoft publié le 30 avril 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Il combine un format relativement compact de 14 milliards de paramètres avec une fenêtre de contexte de 32 768 tokens.

Son ancienneté, environ un an, est déjà importante à l’échelle de l’IA générative. La fiche doit donc être lue comme le portrait d’un modèle de sa période, pertinent pour comprendre l’offre open-weights de Microsoft au printemps 2025, mais probablement dépassé par les générations récentes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Microsoft
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	30 avril 2025
Connaissances jusqu'à	2025-03-01
Multimodal	non
Paramètres	14 milliards
Fenêtre de contexte	32 768 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
HumanEval+	92,3 %	2ᵉ / 10	llm-stats	Auto-déclaré
IFEval	84,9 %	38ᵉ / 65	llm-stats	Auto-déclaré
AIME 2024	81,3 %	23ᵉ / 52	llm-stats	Auto-déclaré
Arena Hard	79,0 %	7ᵉ / 26	llm-stats	Auto-déclaré
AIME 2025	78,0 %	69ᵉ / 108	llm-stats	Auto-déclaré
MMLU-Pro	76,0 %	65ᵉ / 125	llm-stats	Auto-déclaré
PhiBench	74,2 %	1ᵉ / 3	llm-stats	Auto-déclaré
GPQA	68,9 %	116ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	53,1 %	40ᵉ / 72	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. À sa sortie, Phi 4 Reasoning Plus se plaçait dans le haut du panier de sa génération sur GPQA, avec un positionnement dans le top 23% des LLM comparés sur la même période. Ce résultat en faisait un modèle solide pour sa catégorie, surtout au regard de sa taille de 14 milliards de paramètres. Sa licence MIT constitue aussi un point fort concret : les poids sont ouverts et l’usage commercial est autorisé, ce qui le distingue des modèles uniquement accessibles via API ou soumis à des restrictions plus fortes. Sa fenêtre de contexte de 32 768 tokens lui donne une capacité de traitement confortable pour des documents longs selon les standards de sa période.

Limites et points d'attention. Phi 4 Reasoning Plus est un modèle ancien dans un secteur où les performances évoluent très vite. Ses résultats doivent être comparés aux LLM disponibles autour de sa sortie, pas aux modèles frontière actuels, qui l’ont probablement largement dépassé. Il est aussi souvent moins visible, voire plus proposé par l’éditeur, dans les catalogues récents. La limite de connaissances au 1er mars 2025 impose également une prudence sur les faits postérieurs à cette date. La couverture repose sur 2 sources de données concordantes, ce qui apporte un socle cohérent, mais moins riche qu’une documentation complète et régulièrement maintenue.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai).

Phi 4 Reasoning Plus

Caractéristiques

Performances (benchmarks)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast