phi-4-mini-instruct
phi-4-mini-instruct est un LLM de Microsoft évalué dans Benchable sur six axes de base : hallucinations, connaissances générales, éthique, code, suivi d’instructions et mathématiques. Son profil ressort comme inégal, avec de meilleurs signaux sur les hallucinations et les connaissances…
phi-4-mini-instruct est un LLM de Microsoft évalué dans Benchable sur six axes de base : hallucinations, connaissances générales, éthique, code, suivi d’instructions et mathématiques. Son profil ressort comme inégal, avec de meilleurs signaux sur les hallucinations et les connaissances générales que sur les tâches de raisonnement formel ou de programmation.
La fiche repose sur une couverture limitée, avec 1 source de données concordante. Cette base suffit à situer le modèle dans les classements disponibles, mais invite à lire ses résultats comme un instantané comparatif plutôt que comme une caractérisation exhaustive de ses usages.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Microsoft |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 68,0 % | 196ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 58,0 % | 225ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 52,0 % | 226ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 38,0 % | 218ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 27,0 % | 209ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 21,2 % | 195ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 12,0 % | 223ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 4,0 % | 253ᵉ / 254 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : General Knowledge (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 1 h 41 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Le meilleur résultat relatif de phi-4-mini-instruct apparaît sur Hallucinations (Baseline), où le modèle obtient son score le plus élevé parmi les benchmarks fournis. General Knowledge (Baseline) constitue son deuxième point d’appui, ce qui indique un comportement plus solide sur des questions de connaissances générales que sur des tâches spécialisées. Ethics (Baseline) se situe dans une zone intermédiaire à l’échelle de ses propres résultats, sans constituer un avantage compétitif marqué dans le classement Benchable.
Limites et points d'attention. Les rangs Benchable placent phi-4-mini-instruct dans la partie basse des classements sur l’ensemble des axes renseignés. Les faiblesses les plus nettes concernent Instruction Following (Baseline), Mathematics (Baseline) et Coding (Baseline), trois domaines importants pour un LLM orienté exécution de consignes, résolution de problèmes et assistance au développement. La couverture limitée à 1 source concordante réduit aussi la robustesse de l’interprétation : les résultats donnent une tendance utile, mais ne documentent ni les conditions d’entraînement, ni les coûts, ni les performances sur d’autres batteries de tests.
Sources des données : Benchable.ai (benchable.ai).