Microsoft

phi-4-mini-instruct

phi-4-mini-instruct est un LLM de Microsoft évalué dans Benchable sur six axes de base : hallucinations, connaissances générales, éthique, code, suivi d’instructions et mathématiques. Son profil ressort comme inégal, avec de meilleurs signaux sur les hallucinations et les connaissances…

La fiche repose sur une couverture limitée, avec 1 source de données concordante. Cette base suffit à situer le modèle dans les classements disponibles, mais invite à lire ses résultats comme un instantané comparatif plutôt que comme une caractérisation exhaustive de ses usages.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Microsoft

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	68,0 %	196ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	58,0 %	225ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	52,0 %	226ᵉ / 248	benchable	✅ Mesuré
Benchable : Coding (Baseline)	38,0 %	218ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	27,0 %	209ᵉ / 252	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	21,2 %	195ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	12,0 %	223ᵉ / 239	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	4,0 %	253ᵉ / 254	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Phi 496 %

▶ phi-4-mini-instruct68 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

Phi 497 %

▶ phi-4-mini-instruct58 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	1 h 41 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Le meilleur résultat relatif de phi-4-mini-instruct apparaît sur Hallucinations (Baseline), où le modèle obtient son score le plus élevé parmi les benchmarks fournis. General Knowledge (Baseline) constitue son deuxième point d’appui, ce qui indique un comportement plus solide sur des questions de connaissances générales que sur des tâches spécialisées. Ethics (Baseline) se situe dans une zone intermédiaire à l’échelle de ses propres résultats, sans constituer un avantage compétitif marqué dans le classement Benchable.

Limites et points d'attention. Les rangs Benchable placent phi-4-mini-instruct dans la partie basse des classements sur l’ensemble des axes renseignés. Les faiblesses les plus nettes concernent Instruction Following (Baseline), Mathematics (Baseline) et Coding (Baseline), trois domaines importants pour un LLM orienté exécution de consignes, résolution de problèmes et assistance au développement. La couverture limitée à 1 source concordante réduit aussi la robustesse de l’interprétation : les résultats donnent une tendance utile, mais ne documentent ni les conditions d’entraînement, ni les coûts, ni les performances sur d’autres batteries de tests.

Sources des données : Benchable.ai (benchable.ai).

phi-4-mini-instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast