Mistral: Mistral Medium 3.1

Mistral: Mistral Medium 3.1 est un LLM de Mistral AI sorti le 13 août 2025, avec des connaissances arrêtées au 30 juin 2025. Sa fiche le place dans une catégorie de modèles récents à large fenêtre de contexte, avec 131 072 tokens disponibles pour traiter des prompts longs, des documents…

Mistral: Mistral Medium 3.1 est un LLM de Mistral AI sorti le 13 août 2025, avec des connaissances arrêtées au 30 juin 2025. Sa fiche le place dans une catégorie de modèles récents à large fenêtre de contexte, avec 131 072 tokens disponibles pour traiter des prompts longs, des documents volumineux ou des échanges étendus.

Son positionnement se distingue surtout par le prix: l’entrée commence à 0,4 $ par million de tokens et la sortie à 2 $ par million. La tarification est indiquée comme très économique, 79% sous la moyenne des LLM similaires et environ 12,1 fois moins chère que les modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI
Date de sortie13 août 2025
Connaissances jusqu'à2025-06-30
Multimodaloui
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text,image,file → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)92,0 %80ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)72,0 %142ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)66,0 %110ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Qwen2.5 72B Instruct100 %
▶ Mistral Medium…100 %
Nemotron Nano 9B v298 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
qwen3-235b-a22b-04-28100 %
▶ Mistral Medium…100 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Mistral0,4 $2 $0,04 $

Prix en dollars US par million de tokens.

Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,03 $
Latence moyenne par benchmark — Benchable6 min 53 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral: Mistral Medium 3.1 ressort très fortement sur les évaluations Benchable liées aux hallucinations et aux connaissances générales, où il apparaît dans le top 10 et atteint le meilleur rang du panel. Ce profil indique un modèle particulièrement compétitif pour les tâches de réponse factuelle, de synthèse et de restitution d’informations générales, dans la limite de sa coupure de connaissances au 30 juin 2025. Les résultats en Email Classification restent élevés, ce qui soutient les usages de tri, routage et catégorisation de messages. Les scores en Mathematics et Coding signalent aussi une capacité solide sur le raisonnement formel et la génération de code, sans en faire le principal point différenciant. Le prix renforce l’intérêt opérationnel: le modèle combine une grande fenêtre de contexte avec une tarification nettement inférieure à celle de nombreux LLM comparables.

Limites et points d'attention. Les classements Benchable montrent un contraste entre scores bruts élevés et positionnement relatif plus moyen sur certaines tâches, notamment Ethics, Email Classification, Mathematics et Coding. Le modèle n’apparaît donc pas comme un leader homogène sur l’ensemble des catégories testées, malgré de très bons résultats absolus. La date de coupure des connaissances impose aussi une limite pour les sujets postérieurs au 30 juin 2025. La couverture repose sur 2 sources de données concordantes, ce qui établit les informations disponibles sans élargir l’évaluation à davantage de jeux de tests publics. Profil le plus pertinent: applications généralistes à fort volume, assistants documentaires longs, classification de contenus et usages où le coût par token pèse fortement dans le choix du modèle.


Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).