phi-4-mini-instruct

phi-4-mini-instruct est un LLM de Microsoft évalué dans Benchable sur six axes de base : hallucinations, connaissances générales, éthique, code, suivi d’instructions et mathématiques. Son profil ressort comme inégal, avec de meilleurs signaux sur les hallucinations et les connaissances…

phi-4-mini-instruct est un LLM de Microsoft évalué dans Benchable sur six axes de base : hallucinations, connaissances générales, éthique, code, suivi d’instructions et mathématiques. Son profil ressort comme inégal, avec de meilleurs signaux sur les hallucinations et les connaissances générales que sur les tâches de raisonnement formel ou de programmation.

La fiche repose sur une couverture limitée, avec 1 source de données concordante. Cette base suffit à situer le modèle dans les classements disponibles, mais invite à lire ses résultats comme un instantané comparatif plutôt que comme une caractérisation exhaustive de ses usages.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMicrosoft

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)68,0 %196ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)58,0 %225ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)52,0 %226ᵉ / 248benchable✅ Mesuré
Benchable : Coding (Baseline)38,0 %218ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)27,0 %209ᵉ / 252benchable✅ Mesuré
Benchable : Mathematics (Baseline)21,2 %195ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)12,0 %223ᵉ / 239benchable✅ Mesuré
Benchable : Email Classification (Baseline)4,0 %253ᵉ / 254benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Phi 496 %
▶ phi-4-mini-instruct68 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
Phi 497 %
▶ phi-4-mini-instruct58 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable1 h 41 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Le meilleur résultat relatif de phi-4-mini-instruct apparaît sur Hallucinations (Baseline), où le modèle obtient son score le plus élevé parmi les benchmarks fournis. General Knowledge (Baseline) constitue son deuxième point d’appui, ce qui indique un comportement plus solide sur des questions de connaissances générales que sur des tâches spécialisées. Ethics (Baseline) se situe dans une zone intermédiaire à l’échelle de ses propres résultats, sans constituer un avantage compétitif marqué dans le classement Benchable.

Limites et points d'attention. Les rangs Benchable placent phi-4-mini-instruct dans la partie basse des classements sur l’ensemble des axes renseignés. Les faiblesses les plus nettes concernent Instruction Following (Baseline), Mathematics (Baseline) et Coding (Baseline), trois domaines importants pour un LLM orienté exécution de consignes, résolution de problèmes et assistance au développement. La couverture limitée à 1 source concordante réduit aussi la robustesse de l’interprétation : les résultats donnent une tendance utile, mais ne documentent ni les conditions d’entraînement, ni les coûts, ni les performances sur d’autres batteries de tests.


Sources des données : Benchable.ai (benchable.ai).