Mistral Small 3.2 24B Instruct
Mistral Small 3.2 24B Instruct est un LLM open-weights de Mistral AI, publié le 20 juin 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 24 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il visait un compromis entre modèle compact, contexte long…
Mistral Small 3.2 24B Instruct est un LLM open-weights de Mistral AI, publié le 20 juin 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 24 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il visait un compromis entre modèle compact, contexte long et coûts très bas.
Son ancienneté d’environ un an est déjà importante à l’échelle de l’IA. À sa sortie, il se situait dans le top 65% de sa génération sur GPQA, mais ses performances doivent surtout être lues comme celles d’un modèle de sa période, probablement dépassé par les offres plus récentes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Mistral AI |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 20 juin 2025 |
| Connaissances jusqu'à | 2023-10-01 |
| Multimodal | oui |
| Paramètres | 24 milliards |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | image,text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 98,5 % | 134ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 86,0 % | 144ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 85,0 % | 132ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 60,0 % | 162ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 51,0 % | 170ᵉ / 252 | benchable | ✅ Mesuré |
| DocVQA | 94,9 % | 5ᵉ / 26 | llm-stats | Auto-déclaré |
| AI2D | 92,9 % | 6ᵉ / 32 | llm-stats | Auto-déclaré |
| ChartQA | 87,4 % | 8ᵉ / 24 | llm-stats | Auto-déclaré |
| MMLU | 80,5 % | 56ᵉ / 98 | llm-stats | Auto-déclaré |
| MATH | 69,4 % | 39ᵉ / 70 | llm-stats | Auto-déclaré |
| MMLU-Pro | 69,1 % | 81ᵉ / 125 | llm-stats | Auto-déclaré |
| MathVista | 67,1 % | 21ᵉ / 38 | llm-stats | Auto-déclaré |
| Wild Bench | 65,3 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| MMMU | 62,5 % | 39ᵉ / 61 | llm-stats | Auto-déclaré |
| GPQA | 46,1 % | 167ᵉ / 213 | llm-stats | Auto-déclaré |
| Arena Hard | 43,1 % | 21ᵉ / 26 | llm-stats | Auto-déclaré |
| SimpleQA | 12,1 % | 37ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : Email Classification (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1358 | 165ᵉ |
| Arena Vision | 1141 | 88ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,075 $ | 0,2 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 64,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 3 min 27 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Mistral Small 3.2 24B Instruct se distingue surtout par son coût très économique, avec une tarification très inférieure à la moyenne des LLM similaires et environ 64.4 fois plus basse que celle des modèles frontière. Sa licence Apache 2.0 renforce son intérêt pour les déploiements commerciaux et les usages nécessitant des poids ouverts. Sur Benchable, ses meilleurs signaux concernent Ethics (Baseline), où il atteint le top 10, puis Email Classification (Baseline), avec un niveau élevé sur une tâche structurée de tri et d’interprétation de messages. General Knowledge (Baseline) et Hallucinations (Baseline) restent solides pour un modèle de cette génération. La fenêtre de contexte de 128 000 tokens constitue aussi un atout concret pour traiter de longs documents.
Limites et points d'attention. Le modèle est ancien pour le marché actuel : environ un an représente un écart important dans l’évolution des LLM, et ce type de modèle est souvent dépassé ou retiré du catalogue de son éditeur. Ses résultats en Coding (Baseline) et Mathematics (Baseline) le placent plutôt en milieu de tableau, ce qui limite son intérêt pour les tâches techniques exigeantes. L’Arena text et l’Arena vision indiquent aussi un positionnement modeste face à des modèles plus récents. Sa date limite de connaissances au 2023-10-01 impose une vigilance sur les sujets récents. Les données disponibles reposent toutefois sur 4 sources concordantes, ce qui donne une base de comparaison relativement stable.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).