Mistral Small 3.2 24B Instruct

Mistral Small 3.2 24B Instruct est un LLM open-weights de Mistral AI, publié le 20 juin 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 24 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il visait un compromis entre modèle compact, contexte long…

Mistral Small 3.2 24B Instruct est un LLM open-weights de Mistral AI, publié le 20 juin 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 24 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il visait un compromis entre modèle compact, contexte long et coûts très bas.

Son ancienneté d’environ un an est déjà importante à l’échelle de l’IA. À sa sortie, il se situait dans le top 65% de sa génération sur GPQA, mais ses performances doivent surtout être lues comme celles d’un modèle de sa période, probablement dépassé par les offres plus récentes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie20 juin 2025
Connaissances jusqu'à2023-10-01
Multimodaloui
Paramètres24 milliards
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)image,text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)98,5 %134ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Benchable : Coding (Baseline)86,0 %144ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)85,0 %132ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)60,0 %162ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)51,0 %170ᵉ / 252benchable✅ Mesuré
DocVQA94,9 %5ᵉ / 26llm-statsAuto-déclaré
AI2D92,9 %6ᵉ / 32llm-statsAuto-déclaré
ChartQA87,4 %8ᵉ / 24llm-statsAuto-déclaré
MMLU80,5 %56ᵉ / 98llm-statsAuto-déclaré
MATH69,4 %39ᵉ / 70llm-statsAuto-déclaré
MMLU-Pro69,1 %81ᵉ / 125llm-statsAuto-déclaré
MathVista67,1 %21ᵉ / 38llm-statsAuto-déclaré
Wild Bench65,3 %4ᵉ / 8llm-statsAuto-déclaré
MMMU62,5 %39ᵉ / 61llm-statsAuto-déclaré
GPQA46,1 %167ᵉ / 213llm-statsAuto-déclaré
Arena Hard43,1 %21ᵉ / 26llm-statsAuto-déclaré
SimpleQA12,1 %37ᵉ / 45llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Mistral Small 3.2 24B I…100 %

Benchable : Email Classification (Baseline)

nova-premier-v199 %
▶ Mistral Small 3.2 24B I…99 %
WizardLM-2 8x22B95 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1358165ᵉ
Arena Vision114188ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,075 $0,2 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 64,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable3 min 27 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral Small 3.2 24B Instruct se distingue surtout par son coût très économique, avec une tarification très inférieure à la moyenne des LLM similaires et environ 64.4 fois plus basse que celle des modèles frontière. Sa licence Apache 2.0 renforce son intérêt pour les déploiements commerciaux et les usages nécessitant des poids ouverts. Sur Benchable, ses meilleurs signaux concernent Ethics (Baseline), où il atteint le top 10, puis Email Classification (Baseline), avec un niveau élevé sur une tâche structurée de tri et d’interprétation de messages. General Knowledge (Baseline) et Hallucinations (Baseline) restent solides pour un modèle de cette génération. La fenêtre de contexte de 128 000 tokens constitue aussi un atout concret pour traiter de longs documents.

Limites et points d'attention. Le modèle est ancien pour le marché actuel : environ un an représente un écart important dans l’évolution des LLM, et ce type de modèle est souvent dépassé ou retiré du catalogue de son éditeur. Ses résultats en Coding (Baseline) et Mathematics (Baseline) le placent plutôt en milieu de tableau, ce qui limite son intérêt pour les tâches techniques exigeantes. L’Arena text et l’Arena vision indiquent aussi un positionnement modeste face à des modèles plus récents. Sa date limite de connaissances au 2023-10-01 impose une vigilance sur les sujets récents. Les données disponibles reposent toutefois sur 4 sources concordantes, ce qui donne une base de comparaison relativement stable.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).