Mistral Large
Mistral Large est un LLM français publié par Mistral AI le 26 février 2024. Son ancienneté, environ deux ans, est très importante à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres actuelles et souvent absent des catalogues…
Mistral Large est un LLM français publié par Mistral AI le 26 février 2024. Son ancienneté, environ deux ans, est très importante à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres actuelles et souvent absent des catalogues récents.
Le modèle combinait une fenêtre de contexte de 128 000 tokens, un positionnement tarifaire économique et un entraînement massif : 1,1 × 10²⁵ FLOP, soit environ 3,1 millions d’heures-GPU H100, pour un coût estimé à 14,1 millions de dollars.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Mistral AI |
| Date de sortie | 26 février 2024 |
| Connaissances jusqu'à | 2024-11-30 |
| Multimodal | oui |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text,file → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 98,5 % | 134ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,0 % | 67ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 82,0 % | 162ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 64,0 % | 157ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 63,0 % | 122ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 38,8 % | 103ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 24,5 % | 62ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 1,9 % | 103ᵉ / 111 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Mistral | 2 $ | 6 $ | 0,2 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,07 $ |
| Latence moyenne par benchmark — Benchable | 3 min 06 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 1,1 × 10²⁵ FLOP |
| Jeu de données | Unspecified unreleased |
| Coût d'entraînement estimé | ≈ 14 110 112 $ (USD 2023) |
| Matériel | NVIDIA H100 SXM5 80GB |
| Durée d'entraînement | 2 500 h |
| Pays | France |
Notre analyse
Forces. À sa sortie, Mistral Large se situait dans le haut du panier de sa génération, avec un classement dans le top 24% sur Epoch: GPQA diamond parmi les LLM comparables de la même période. Ses meilleurs résultats Benchable concernent les hallucinations et l’éthique, où il apparaît dans le top 10, ce qui signale un comportement solide sur ces évaluations de fiabilité et de conformité. La classification d’e-mails ressort aussi comme un point fort net. Les connaissances générales et les mathématiques restent élevées en score brut, même si leur classement relatif est moins dominant. Côté prix, le modèle conserve un profil économique : légèrement au-dessus de la moyenne des LLM similaires, mais nettement moins coûteux que les modèles frontière.
Limites et points d’attention. Mistral Large est un modèle ancien au regard du rythme actuel de l’IA. Ses performances sont aujourd’hui largement dépassées par des générations plus récentes, et ce type de modèle est souvent retiré des offres commerciales de l’éditeur. Sa date de connaissances, arrêtée au 2024-11-30, limite aussi son intérêt pour les sujets postérieurs. Le coding constitue son point faible le plus visible dans les évaluations fournies, avec un positionnement en retrait par rapport aux meilleurs modèles du benchmark. L’intérêt principal restant est historique et industriel : l’entraînement a mobilisé l’équivalent d’environ 1 400 GPU H100 pendant trois mois, pour un coût estimé à 14,1 millions de dollars.
Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).