Mistral Large 3 (675B Instruct 2512 Eagle)

Mistral Large 3 (675B Instruct 2512 Eagle) est un LLM de Mistral AI publié le 4 décembre 2025, avec 675 milliards de paramètres. Son positionnement combine très grande taille et diffusion open-weights sous licence Apache 2.0, avec usage commercial autorisé.

Mistral Large 3 (675B Instruct 2512 Eagle) est un LLM de Mistral AI publié le 4 décembre 2025, avec 675 milliards de paramètres. Son positionnement combine très grande taille et diffusion open-weights sous licence Apache 2.0, avec usage commercial autorisé.

À sa sortie, le modèle se situait dans le top 78% des LLM de sa génération sur GPQA, parmi 147 modèles comparés sur une fenêtre de plus ou moins neuf mois. La fiche repose sur une source de données concordante.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie4 décembre 2025
Multimodaloui
Paramètres675 milliards

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
MMMLU85,5 %28ᵉ / 49llm-statsAuto-déclaré
AMC_2022_2352,0 %1ᵉ / 6llm-statsAuto-déclaré
GPQA43,9 %172ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench34,4 %53ᵉ / 72llm-statsAuto-déclaré
SimpleQA23,8 %30ᵉ / 45llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. Mistral Large 3 (675B Instruct 2512 Eagle) se distingue d’abord par son échelle, avec 675 milliards de paramètres, un format qui le place parmi les très grands LLM documentés dans cette période. Sa licence Apache 2.0 constitue un autre point fort concret, car elle associe poids ouverts et autorisation d’usage commercial. Sur GPQA, son classement de sortie le situe dans le top 78% des 147 LLM de la même période, ce qui donne un repère générationnel plutôt qu’une comparaison abstraite avec des modèles plus récents.

Limites et points d’attention. Les données disponibles restent limitées à une seule source concordante, sans autres benchmarks fournis pour qualifier le code, le raisonnement agentique, les mathématiques avancées ou les performances en production. Le score relatif sur GPQA ne suffit donc pas à établir une supériorité globale face aux modèles haut de gamme. La très grande taille implique aussi un modèle lourd par nature, même si aucun chiffre d’infrastructure, de coût d’entraînement ou de coût d’inférence n’est fourni ici. L’intérêt principal se concentre sur l’étude d’un très grand LLM open-weights commercial publié par Mistral AI.


Sources des données : LLM-Stats (llm-stats.com).