Mistral Large 2
Mistral Large 2 est un LLM de Mistral AI sorti le 24 juillet 2024, à une époque où l’éditeur français cherchait à installer un grand modèle généraliste face aux meilleurs systèmes de sa génération. Avec 123 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il se…
Mistral Large 2 est un LLM de Mistral AI sorti le 24 juillet 2024, à une époque où l’éditeur français cherchait à installer un grand modèle généraliste face aux meilleurs systèmes de sa génération. Avec 123 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il se positionnait comme un modèle de grande taille, conçu pour traiter de longs contenus.
Près de deux ans plus tard, son âge pèse fortement à l’échelle de l’IA. Mistral Large 2 reste surtout intéressant comme jalon historique : son entraînement a mobilisé 2,1 × 10²⁵ FLOP, soit environ 5,9 millions d’heures-GPU H100, l’équivalent d’environ 2 700 GPU H100 pendant trois mois.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Mistral AI |
| Licence | Mistral Research License (poids non ouverts) |
| Date de sortie | 24 juillet 2024 |
| Multimodal | non |
| Paramètres | 123 milliards |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 51,3 % | 77ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 50,3 % | 46ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 8,5 % | 80ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 0,3 % | 65ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| GSM8k | 93,0 % | 17ᵉ / 47 | llm-stats | Auto-déclaré |
| HumanEval | 92,0 % | 9ᵉ / 65 | llm-stats | Auto-déclaré |
| MT-Bench | 86,3 % | 6ᵉ / 12 | llm-stats | Auto-déclaré |
| MMLU | 84,0 % | 44ᵉ / 98 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: GPQA diamond
Epoch: MATH level 5
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 2,1 × 10²⁵ FLOP |
| Jeu de données | Unspecified unreleased |
| Pays | France |
Notre analyse
Forces. À sa sortie, Mistral Large 2 figurait dans le haut du panier de sa génération sur GPQA diamond (questions scientifiques niveau doctorat), avec un classement dans le top 8% des LLM de la même période. Ce résultat situe le modèle comme compétitif, en 2024, sur des tâches de raisonnement scientifique exigeantes. Son score sur MATH level 5 indique aussi une capacité réelle en mathématiques difficiles, sans atteindre le niveau des meilleurs modèles spécialisés. Sa fenêtre de contexte de 128 000 tokens constituait un autre atout concret pour l’analyse de documents longs ou de conversations étendues.
Limites et points d'attention. Mistral Large 2 est aujourd’hui un modèle ancien, probablement dépassé par les modèles haut de gamme plus récents et souvent retiré du catalogue de l’éditeur. Ses résultats sur les benchmarks mathématiques les plus durs sont faibles : OTIS Mock AIME le place en bas de tableau pour des problèmes d’olympiades, et FrontierMath affiche des scores nuls sur des mathématiques de recherche. La Mistral Research License limite aussi l’usage par rapport à des modèles aux poids ouverts. Ce qui reste marquant est l’ampleur de l’effort d’entraînement, avec 2,1 × 10²⁵ FLOP et l’équivalent de 5,9 millions d’heures-GPU H100.
Sources des données : LLM-Stats (llm-stats.com) · Epoch AI (epoch.ai), CC-BY-4.0.