Mistral AI

Mistral Small 3.2 24B Instruct

Mistral Small 3.2 24B Instruct est un LLM open-weights de Mistral AI, publié le 20 juin 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 24 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il visait un compromis entre modèle compact, contexte long…

Son ancienneté d’environ un an est déjà importante à l’échelle de l’IA. À sa sortie, il se situait dans le top 65% de sa génération sur GPQA, mais ses performances doivent surtout être lues comme celles d’un modèle de sa période, probablement dépassé par les offres plus récentes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	20 juin 2025
Connaissances jusqu'à	2023-10-01
Multimodal	oui
Paramètres	24 milliards
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	image,text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	98,5 %	134ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Coding (Baseline)	86,0 %	144ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	85,0 %	132ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	60,0 %	162ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	51,0 %	170ᵉ / 252	benchable	✅ Mesuré
DocVQA	94,9 %	5ᵉ / 26	llm-stats	Auto-déclaré
AI2D	92,9 %	6ᵉ / 32	llm-stats	Auto-déclaré
ChartQA	87,4 %	8ᵉ / 24	llm-stats	Auto-déclaré
MMLU	80,5 %	56ᵉ / 98	llm-stats	Auto-déclaré
MATH	69,4 %	39ᵉ / 70	llm-stats	Auto-déclaré
MMLU-Pro	69,1 %	81ᵉ / 125	llm-stats	Auto-déclaré
MathVista	67,1 %	21ᵉ / 38	llm-stats	Auto-déclaré
Wild Bench	65,3 %	4ᵉ / 8	llm-stats	Auto-déclaré
MMMU	62,5 %	39ᵉ / 61	llm-stats	Auto-déclaré
GPQA	46,1 %	167ᵉ / 213	llm-stats	Auto-déclaré
Arena Hard	43,1 %	21ᵉ / 26	llm-stats	Auto-déclaré
SimpleQA	12,1 %	37ᵉ / 45	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Mistral Small 3.2 24B I…100 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Mistral Small 3.2 24B I…99 %

WizardLM-2 8x22B95 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1358	165ᵉ
Arena Vision	1141	88ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,075 $	0,2 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 64,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	3 min 27 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral Small 3.2 24B Instruct se distingue surtout par son coût très économique, avec une tarification très inférieure à la moyenne des LLM similaires et environ 64.4 fois plus basse que celle des modèles frontière. Sa licence Apache 2.0 renforce son intérêt pour les déploiements commerciaux et les usages nécessitant des poids ouverts. Sur Benchable, ses meilleurs signaux concernent Ethics (Baseline), où il atteint le top 10, puis Email Classification (Baseline), avec un niveau élevé sur une tâche structurée de tri et d’interprétation de messages. General Knowledge (Baseline) et Hallucinations (Baseline) restent solides pour un modèle de cette génération. La fenêtre de contexte de 128 000 tokens constitue aussi un atout concret pour traiter de longs documents.

Limites et points d'attention. Le modèle est ancien pour le marché actuel : environ un an représente un écart important dans l’évolution des LLM, et ce type de modèle est souvent dépassé ou retiré du catalogue de son éditeur. Ses résultats en Coding (Baseline) et Mathematics (Baseline) le placent plutôt en milieu de tableau, ce qui limite son intérêt pour les tâches techniques exigeantes. L’Arena text et l’Arena vision indiquent aussi un positionnement modeste face à des modèles plus récents. Sa date limite de connaissances au 2023-10-01 impose une vigilance sur les sujets récents. Les données disponibles reposent toutefois sur 4 sources concordantes, ce qui donne une base de comparaison relativement stable.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Mistral Small 3.2 24B Instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast