Mistral Large 3 (675B Instruct 2512 Eagle)
Mistral Large 3 (675B Instruct 2512 Eagle) est un LLM de Mistral AI publié le 4 décembre 2025, avec 675 milliards de paramètres. Son positionnement combine très grande taille et diffusion open-weights sous licence Apache 2.0, avec usage commercial autorisé.
Mistral Large 3 (675B Instruct 2512 Eagle) est un LLM de Mistral AI publié le 4 décembre 2025, avec 675 milliards de paramètres. Son positionnement combine très grande taille et diffusion open-weights sous licence Apache 2.0, avec usage commercial autorisé.
À sa sortie, le modèle se situait dans le top 78% des LLM de sa génération sur GPQA, parmi 147 modèles comparés sur une fenêtre de plus ou moins neuf mois. La fiche repose sur une source de données concordante.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Mistral AI |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 4 décembre 2025 |
| Multimodal | oui |
| Paramètres | 675 milliards |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| MMMLU | 85,5 % | 28ᵉ / 49 | llm-stats | Auto-déclaré |
| AMC_2022_23 | 52,0 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| GPQA | 43,9 % | 172ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 34,4 % | 53ᵉ / 72 | llm-stats | Auto-déclaré |
| SimpleQA | 23,8 % | 30ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Notre analyse
Forces. Mistral Large 3 (675B Instruct 2512 Eagle) se distingue d’abord par son échelle, avec 675 milliards de paramètres, un format qui le place parmi les très grands LLM documentés dans cette période. Sa licence Apache 2.0 constitue un autre point fort concret, car elle associe poids ouverts et autorisation d’usage commercial. Sur GPQA, son classement de sortie le situe dans le top 78% des 147 LLM de la même période, ce qui donne un repère générationnel plutôt qu’une comparaison abstraite avec des modèles plus récents.
Limites et points d’attention. Les données disponibles restent limitées à une seule source concordante, sans autres benchmarks fournis pour qualifier le code, le raisonnement agentique, les mathématiques avancées ou les performances en production. Le score relatif sur GPQA ne suffit donc pas à établir une supériorité globale face aux modèles haut de gamme. La très grande taille implique aussi un modèle lourd par nature, même si aucun chiffre d’infrastructure, de coût d’entraînement ou de coût d’inférence n’est fourni ici. L’intérêt principal se concentre sur l’étude d’un très grand LLM open-weights commercial publié par Mistral AI.
Sources des données : LLM-Stats (llm-stats.com).