Mistral Small 3.1 24B Instruct
Mistral Small 3.1 24B Instruct est un LLM open-weights de Mistral AI, publié le 17 mars 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles…
Mistral Small 3.1 24B Instruct est un LLM open-weights de Mistral AI, publié le 17 mars 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles disponibles au moment de sa sortie.
Le modèle combine un format 24 milliards de paramètres, une fenêtre de contexte de 128 000 tokens et une tarification très économique. Son coût est nettement inférieur à celui des LLM similaires et reste très en dessous des modèles frontière, ce qui explique son intérêt historique dans la catégorie des modèles ouverts compacts.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Mistral AI |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 17 mars 2025 |
| Connaissances jusqu'à | 2023-10-31 |
| Multimodal | oui |
| Paramètres | 24 milliards |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 98,7 % | 132ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 96,0 % | 197ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 86,0 % | 127ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 81,0 % | 168ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 64,0 % | 157ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 54,3 % | 161ᵉ / 252 | benchable | ✅ Mesuré |
| HumanEval | 88,4 % | 18ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU | 80,6 % | 55ᵉ / 98 | llm-stats | Auto-déclaré |
| TriviaQA | 80,5 % | 4ᵉ / 18 | llm-stats | Auto-déclaré |
| MBPP | 74,7 % | 18ᵉ / 33 | llm-stats | Auto-déclaré |
| MATH | 69,3 % | 41ᵉ / 70 | llm-stats | Auto-déclaré |
| MMLU-Pro | 66,8 % | 92ᵉ / 125 | llm-stats | Auto-déclaré |
| MMMU | 59,3 % | 44ᵉ / 61 | llm-stats | Auto-déclaré |
| GPQA | 46,0 % | 169ᵉ / 213 | llm-stats | Auto-déclaré |
| SimpleQA | 10,4 % | 39ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Vision | 1128 | 91ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Cloudflare | 0,351 $ | 0,555 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 82 % en dessous de la moyenne des LLM similaires, et 13,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 3 min 24 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Mistral Small 3.1 24B Instruct se distingue d’abord par son positionnement ouvert et commercialement exploitable, grâce à la licence Apache 2.0. À sa sortie, il se situait dans le top 62% des LLM de sa génération sur GPQA, ce qui en faisait un modèle compétitif sans appartenir au tout premier cercle. Ses meilleurs signaux Benchable concernent Ethics, General Knowledge et Hallucinations, où il apparaît solide pour des tâches générales, avec une tendance favorable à la réduction des réponses inventées. La fenêtre de contexte de 128 000 tokens reste un atout concret pour traiter de longs documents ou de longues conversations. Son autre point fort est économique : les tarifs d’entrée et de sortie sont très bas, avec un prix annoncé 82% inférieur à la moyenne des LLM similaires.
Limites et points d’attention. Son ancienneté pèse fortement : un modèle sorti en mars 2025 est probablement dépassé par les meilleurs systèmes actuels et souvent retiré du catalogue actif de son éditeur. Sa connaissance s’arrête au 31 octobre 2023, ce qui limite les usages nécessitant des faits récents. Les résultats sont plus faibles en Coding et en Mathematics, avec un positionnement de milieu ou bas de tableau selon les classements Benchable concernés. L’Arena vision le place également loin des meilleurs modèles multimodaux évalués. Aucune donnée vérifiée fournie ici ne documente le coût d’entraînement ou l’équivalent en GPU H100, ce qui empêche de qualifier précisément l’effort de calcul derrière ce modèle.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).