Mistral Large

Mistral Large est un LLM français publié par Mistral AI le 26 février 2024. Son ancienneté, environ deux ans, est très importante à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres actuelles et souvent absent des catalogues…

Mistral Large est un LLM français publié par Mistral AI le 26 février 2024. Son ancienneté, environ deux ans, est très importante à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres actuelles et souvent absent des catalogues récents.

Le modèle combinait une fenêtre de contexte de 128 000 tokens, un positionnement tarifaire économique et un entraînement massif : 1,1 × 10²⁵ FLOP, soit environ 3,1 millions d’heures-GPU H100, pour un coût estimé à 14,1 millions de dollars.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI
Date de sortie26 février 2024
Connaissances jusqu'à2024-11-30
Multimodaloui
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text,file → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)98,5 %134ᵉ / 250benchable✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)82,0 %162ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)64,0 %157ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)63,0 %122ᵉ / 252benchable✅ Mesuré
Epoch: GPQA diamond38,8 %103ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 524,5 %62ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20251,9 %103ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Qwen2.5 72B Instruct100 %
▶ Mistral Large100 %
Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Mistral Large100 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Mistral2 $6 $0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,07 $
Latence moyenne par benchmark — Benchable3 min 06 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement1,1 × 10²⁵ FLOP
Jeu de donnéesUnspecified unreleased
Coût d'entraînement estimé≈ 14 110 112 $ (USD 2023)
MatérielNVIDIA H100 SXM5 80GB
Durée d'entraînement2 500 h
PaysFrance

Notre analyse

Forces. À sa sortie, Mistral Large se situait dans le haut du panier de sa génération, avec un classement dans le top 24% sur Epoch: GPQA diamond parmi les LLM comparables de la même période. Ses meilleurs résultats Benchable concernent les hallucinations et l’éthique, où il apparaît dans le top 10, ce qui signale un comportement solide sur ces évaluations de fiabilité et de conformité. La classification d’e-mails ressort aussi comme un point fort net. Les connaissances générales et les mathématiques restent élevées en score brut, même si leur classement relatif est moins dominant. Côté prix, le modèle conserve un profil économique : légèrement au-dessus de la moyenne des LLM similaires, mais nettement moins coûteux que les modèles frontière.

Limites et points d’attention. Mistral Large est un modèle ancien au regard du rythme actuel de l’IA. Ses performances sont aujourd’hui largement dépassées par des générations plus récentes, et ce type de modèle est souvent retiré des offres commerciales de l’éditeur. Sa date de connaissances, arrêtée au 2024-11-30, limite aussi son intérêt pour les sujets postérieurs. Le coding constitue son point faible le plus visible dans les évaluations fournies, avec un positionnement en retrait par rapport aux meilleurs modèles du benchmark. L’intérêt principal restant est historique et industriel : l’entraînement a mobilisé l’équivalent d’environ 1 400 GPU H100 pendant trois mois, pour un coût estimé à 14,1 millions de dollars.


Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).