Mistral AI

Mistral: Mistral Medium 3.1

Mistral: Mistral Medium 3.1 est un LLM de Mistral AI sorti le 13 août 2025, avec des connaissances arrêtées au 30 juin 2025. Sa fiche le place dans une catégorie de modèles récents à large fenêtre de contexte, avec 131 072 tokens disponibles pour traiter des prompts longs, des documents…

Son positionnement se distingue surtout par le prix: l’entrée commence à 0,4 $ par million de tokens et la sortie à 2 $ par million. La tarification est indiquée comme très économique, 79% sous la moyenne des LLM similaires et environ 12,1 fois moins chère que les modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI
Date de sortie	13 août 2025
Connaissances jusqu'à	2025-06-30
Multimodal	oui
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text,image,file → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	92,0 %	80ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	72,0 %	142ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	66,0 %	110ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Mistral Medium…100 %

Nemotron Nano 9B v298 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ Mistral Medium…100 %

DeepSeek R1 Distill Lla…100 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Mistral	0,4 $	2 $	0,04 $

Prix en dollars US par million de tokens.

Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,03 $
Latence moyenne par benchmark — Benchable	6 min 53 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral: Mistral Medium 3.1 ressort très fortement sur les évaluations Benchable liées aux hallucinations et aux connaissances générales, où il apparaît dans le top 10 et atteint le meilleur rang du panel. Ce profil indique un modèle particulièrement compétitif pour les tâches de réponse factuelle, de synthèse et de restitution d’informations générales, dans la limite de sa coupure de connaissances au 30 juin 2025. Les résultats en Email Classification restent élevés, ce qui soutient les usages de tri, routage et catégorisation de messages. Les scores en Mathematics et Coding signalent aussi une capacité solide sur le raisonnement formel et la génération de code, sans en faire le principal point différenciant. Le prix renforce l’intérêt opérationnel: le modèle combine une grande fenêtre de contexte avec une tarification nettement inférieure à celle de nombreux LLM comparables.

Limites et points d'attention. Les classements Benchable montrent un contraste entre scores bruts élevés et positionnement relatif plus moyen sur certaines tâches, notamment Ethics, Email Classification, Mathematics et Coding. Le modèle n’apparaît donc pas comme un leader homogène sur l’ensemble des catégories testées, malgré de très bons résultats absolus. La date de coupure des connaissances impose aussi une limite pour les sujets postérieurs au 30 juin 2025. La couverture repose sur 2 sources de données concordantes, ce qui établit les informations disponibles sans élargir l’évaluation à davantage de jeux de tests publics. Profil le plus pertinent: applications généralistes à fort volume, assistants documentaires longs, classification de contenus et usages où le coût par token pèse fortement dans le choix du modèle.

Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Mistral: Mistral Medium 3.1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast