Mistral AI

Mistral Large 2

Mistral Large 2 est un LLM de Mistral AI sorti le 24 juillet 2024, à une époque où l’éditeur français cherchait à installer un grand modèle généraliste face aux meilleurs systèmes de sa génération. Avec 123 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il se…

Près de deux ans plus tard, son âge pèse fortement à l’échelle de l’IA. Mistral Large 2 reste surtout intéressant comme jalon historique : son entraînement a mobilisé 2,1 × 10²⁵ FLOP, soit environ 5,9 millions d’heures-GPU H100, l’équivalent d’environ 2 700 GPU H100 pendant trois mois.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI
Licence	Mistral Research License (poids non ouverts)
Date de sortie	24 juillet 2024
Multimodal	non
Paramètres	123 milliards
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	51,3 %	77ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	50,3 %	46ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	8,5 %	80ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	0,3 %	65ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
GSM8k	93,0 %	17ᵉ / 47	llm-stats	Auto-déclaré
HumanEval	92,0 %	9ᵉ / 65	llm-stats	Auto-déclaré
MT-Bench	86,3 %	6ᵉ / 12	llm-stats	Auto-déclaré
MMLU	84,0 %	44ᵉ / 98	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Mistral Large 251 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Mistral Large 250 %

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	2,1 × 10²⁵ FLOP
Jeu de données	Unspecified unreleased
Pays	France

Notre analyse

Forces. À sa sortie, Mistral Large 2 figurait dans le haut du panier de sa génération sur GPQA diamond (questions scientifiques niveau doctorat), avec un classement dans le top 8% des LLM de la même période. Ce résultat situe le modèle comme compétitif, en 2024, sur des tâches de raisonnement scientifique exigeantes. Son score sur MATH level 5 indique aussi une capacité réelle en mathématiques difficiles, sans atteindre le niveau des meilleurs modèles spécialisés. Sa fenêtre de contexte de 128 000 tokens constituait un autre atout concret pour l’analyse de documents longs ou de conversations étendues.

Limites et points d'attention. Mistral Large 2 est aujourd’hui un modèle ancien, probablement dépassé par les modèles haut de gamme plus récents et souvent retiré du catalogue de l’éditeur. Ses résultats sur les benchmarks mathématiques les plus durs sont faibles : OTIS Mock AIME le place en bas de tableau pour des problèmes d’olympiades, et FrontierMath affiche des scores nuls sur des mathématiques de recherche. La Mistral Research License limite aussi l’usage par rapport à des modèles aux poids ouverts. Ce qui reste marquant est l’ampleur de l’effort d’entraînement, avec 2,1 × 10²⁵ FLOP et l’équivalent de 5,9 millions d’heures-GPU H100.

Sources des données : LLM-Stats (llm-stats.com) · Epoch AI (epoch.ai), CC-BY-4.0.

Mistral Large 2

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast