Mistral Medium 3.5
Mistral Medium 3.5 est un LLM de Mistral AI sorti le 29 avril 2026, positionné comme un modèle économique de grande taille avec 128 milliards de paramètres et une fenêtre de contexte de 262 144 tokens. Sa licence est une Modified MIT License, mais ses poids ne sont pas ouverts.
Mistral Medium 3.5 est un LLM de Mistral AI sorti le 29 avril 2026, positionné comme un modèle économique de grande taille avec 128 milliards de paramètres et une fenêtre de contexte de 262 144 tokens. Sa licence est une Modified MIT License, mais ses poids ne sont pas ouverts.
Son intérêt principal tient à l’équilibre entre coût et performances générales : son tarif est inférieur à la moyenne des LLM similaires et nettement plus bas que celui des modèles frontière. À sa sortie, il se situait dans le top 22% de sa génération sur SWE-Bench Verified, un repère important pour les tâches de développement logiciel.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Mistral AI |
| Licence | Modified MIT License (poids non ouverts) |
| Date de sortie | 29 avril 2026 |
| Multimodal | oui |
| Paramètres | 128 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 29.9 | 62ᵉ / 136 |
| Code Index | 46.9 | 28ᵉ / 50 |
| Agentic Index | 19.0 | 31ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,0 % | 80ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 80,0 % | 114ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 71,0 % | 82ᵉ / 252 | benchable | ✅ Mesuré |
| COLLIE | 95,8 % | 4ᵉ / 10 | llm-stats | Auto-déclaré |
| AIME 2025 | 86,3 % | 54ᵉ / 108 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 77,6 % | 22ᵉ / 100 | llm-stats | Auto-déclaré |
| IFBench | 69,0 % | 18ᵉ / 27 | llm-stats | Auto-déclaré |
| Beyond AIME | 66,9 % | 4ᵉ / 5 | llm-stats | Auto-déclaré |
| BrowseComp | 48,6 % | 39ᵉ / 51 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 32,1 % | 21ᵉ / 25 | llm-stats | n.d. |
| GDPval-AA | 30,9 % | 31ᵉ / 33 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1427 | 78ᵉ |
| Arena Code | 1268 | 74ᵉ |
| Arena Vision | 1199 | 59ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| mistral | 1,5 $ | 7,5 $ | n.d. |
| artificialanalysis | 1,5 $ | 7,5 $ | 0,15 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 23 % en dessous de la moyenne des LLM similaires, et 3,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,09 $ |
| Latence moyenne par benchmark — Benchable | 1 min 44 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Mistral Medium 3.5 se distingue d’abord sur Benchable Hallucinations, où il apparaît dans le tout premier groupe, ce qui indique une bonne tenue sur les réponses factuelles du protocole. Les résultats Benchable en General Knowledge, Ethics, Email Classification, Mathematics et Coding restent élevés, avec un profil plus homogène que spécialisé. Le modèle est aussi bien placé en code pour sa période : son Code Index le situe dans la partie haute du panel mesuré, et son classement SWE-Bench Verified le plaçait, à sa sortie, dans le haut du panier des LLM de sa génération. La tarification renforce ce positionnement : le modèle est 23% moins cher que la moyenne des LLM similaires et environ 3,2 fois moins cher que les modèles frontière.
Limites et points d'attention. Les indices globaux montrent un modèle compétitif mais pas dominant : l’Intelligence Index reste en milieu de classement, et l’Agentic Index signale des performances plus limitées sur les scénarios d’agent. Les scores Arena en texte, code et vision le placent aussi derrière de nombreux concurrents évalués dans ces arènes publiques. Les poids non ouverts limitent par ailleurs les usages nécessitant un contrôle complet du modèle. Mistral Medium 3.5 correspond surtout à des usages de production recherchant un compromis entre coût, contexte long, connaissances générales, classification, mathématiques courantes et développement logiciel, sans viser le niveau des modèles haut de gamme les plus performants.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).