Mistral AI

Mistral Large

Mistral Large est un LLM français publié par Mistral AI le 26 février 2024. Son ancienneté, environ deux ans, est très importante à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres actuelles et souvent absent des catalogues…

Le modèle combinait une fenêtre de contexte de 128 000 tokens, un positionnement tarifaire économique et un entraînement massif : 1,1 × 10²⁵ FLOP, soit environ 3,1 millions d’heures-GPU H100, pour un coût estimé à 14,1 millions de dollars.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI
Date de sortie	26 février 2024
Connaissances jusqu'à	2024-11-30
Multimodal	oui
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text,file → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	98,5 %	134ᵉ / 250	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	82,0 %	162ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	64,0 %	157ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	63,0 %	122ᵉ / 252	benchable	✅ Mesuré
Epoch: GPQA diamond	38,8 %	103ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	24,5 %	62ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	1,9 %	103ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Mistral Large100 %

Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Mistral Large100 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Mistral	2 $	6 $	0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,07 $
Latence moyenne par benchmark — Benchable	3 min 06 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	1,1 × 10²⁵ FLOP
Jeu de données	Unspecified unreleased
Coût d'entraînement estimé	≈ 14 110 112 $ (USD 2023)
Matériel	NVIDIA H100 SXM5 80GB
Durée d'entraînement	2 500 h
Pays	France

Notre analyse

Forces. À sa sortie, Mistral Large se situait dans le haut du panier de sa génération, avec un classement dans le top 24% sur Epoch: GPQA diamond parmi les LLM comparables de la même période. Ses meilleurs résultats Benchable concernent les hallucinations et l’éthique, où il apparaît dans le top 10, ce qui signale un comportement solide sur ces évaluations de fiabilité et de conformité. La classification d’e-mails ressort aussi comme un point fort net. Les connaissances générales et les mathématiques restent élevées en score brut, même si leur classement relatif est moins dominant. Côté prix, le modèle conserve un profil économique : légèrement au-dessus de la moyenne des LLM similaires, mais nettement moins coûteux que les modèles frontière.

Limites et points d’attention. Mistral Large est un modèle ancien au regard du rythme actuel de l’IA. Ses performances sont aujourd’hui largement dépassées par des générations plus récentes, et ce type de modèle est souvent retiré des offres commerciales de l’éditeur. Sa date de connaissances, arrêtée au 2024-11-30, limite aussi son intérêt pour les sujets postérieurs. Le coding constitue son point faible le plus visible dans les évaluations fournies, avec un positionnement en retrait par rapport aux meilleurs modèles du benchmark. L’intérêt principal restant est historique et industriel : l’entraînement a mobilisé l’équivalent d’environ 1 400 GPU H100 pendant trois mois, pour un coût estimé à 14,1 millions de dollars.

Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Mistral Large

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast