Mistral AI

Mistral Small 3.1 24B Instruct

Mistral Small 3.1 24B Instruct est un LLM open-weights de Mistral AI, publié le 17 mars 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles…

Le modèle combine un format 24 milliards de paramètres, une fenêtre de contexte de 128 000 tokens et une tarification très économique. Son coût est nettement inférieur à celui des LLM similaires et reste très en dessous des modèles frontière, ce qui explique son intérêt historique dans la catégorie des modèles ouverts compacts.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	17 mars 2025
Connaissances jusqu'à	2023-10-31
Multimodal	oui
Paramètres	24 milliards
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	98,7 %	132ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	96,0 %	197ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	86,0 %	127ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	81,0 %	168ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	64,0 %	157ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	54,3 %	161ᵉ / 252	benchable	✅ Mesuré
HumanEval	88,4 %	18ᵉ / 65	llm-stats	Auto-déclaré
MMLU	80,6 %	55ᵉ / 98	llm-stats	Auto-déclaré
TriviaQA	80,5 %	4ᵉ / 18	llm-stats	Auto-déclaré
MBPP	74,7 %	18ᵉ / 33	llm-stats	Auto-déclaré
MATH	69,3 %	41ᵉ / 70	llm-stats	Auto-déclaré
MMLU-Pro	66,8 %	92ᵉ / 125	llm-stats	Auto-déclaré
MMMU	59,3 %	44ᵉ / 61	llm-stats	Auto-déclaré
GPQA	46,0 %	169ᵉ / 213	llm-stats	Auto-déclaré
SimpleQA	10,4 %	39ᵉ / 45	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Mistral Small 3.1 24B I…99 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ Mistral Small 3.1 24B I…99 %

Llama 3.3 70B Instruct98 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Vision	1128	91ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Cloudflare	0,351 $	0,555 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 82 % en dessous de la moyenne des LLM similaires, et 13,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	3 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral Small 3.1 24B Instruct se distingue d’abord par son positionnement ouvert et commercialement exploitable, grâce à la licence Apache 2.0. À sa sortie, il se situait dans le top 62% des LLM de sa génération sur GPQA, ce qui en faisait un modèle compétitif sans appartenir au tout premier cercle. Ses meilleurs signaux Benchable concernent Ethics, General Knowledge et Hallucinations, où il apparaît solide pour des tâches générales, avec une tendance favorable à la réduction des réponses inventées. La fenêtre de contexte de 128 000 tokens reste un atout concret pour traiter de longs documents ou de longues conversations. Son autre point fort est économique : les tarifs d’entrée et de sortie sont très bas, avec un prix annoncé 82% inférieur à la moyenne des LLM similaires.

Limites et points d’attention. Son ancienneté pèse fortement : un modèle sorti en mars 2025 est probablement dépassé par les meilleurs systèmes actuels et souvent retiré du catalogue actif de son éditeur. Sa connaissance s’arrête au 31 octobre 2023, ce qui limite les usages nécessitant des faits récents. Les résultats sont plus faibles en Coding et en Mathematics, avec un positionnement de milieu ou bas de tableau selon les classements Benchable concernés. L’Arena vision le place également loin des meilleurs modèles multimodaux évalués. Aucune donnée vérifiée fournie ici ne documente le coût d’entraînement ou l’équivalent en GPU H100, ce qui empêche de qualifier précisément l’effort de calcul derrière ce modèle.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Mistral Small 3.1 24B Instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast