Magistral Small 1.1

Magistral Small 1.1 est un LLM de Mistral AI publié le 10 juin 2025. Son ancienneté d’environ un an le place déjà dans une génération très datée à l’échelle de l’IA, où les cycles de remplacement sont rapides et où les modèles de cette période sont fréquemment dépassés par les offres…

Magistral Small 1.1 est un LLM de Mistral AI publié le 10 juin 2025. Son ancienneté d’environ un an le place déjà dans une génération très datée à l’échelle de l’IA, où les cycles de remplacement sont rapides et où les modèles de cette période sont fréquemment dépassés par les offres plus récentes.

À sa sortie, Magistral Small 1.1 se situait dans le top 50% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. La fiche sert donc surtout à documenter un modèle intermédiaire de son époque, plutôt qu’un candidat de référence actuel.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI
Date de sortie10 juin 2025

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond48,4 %84ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202530,0 %69ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Magistral Small 1.148 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
Mistral Medium…32 %
▶ Magistral Small 1.130 %
Phi 414 %

Notre analyse

Forces. Magistral Small 1.1 montre son meilleur profil sur GPQA diamond, qui évalue des questions scientifiques de niveau doctorat. À sa sortie, ce résultat le plaçait dans la moitié supérieure des LLM comparables de la même période, ce qui indique un niveau correct de raisonnement scientifique pour sa génération. Sur OTIS Mock AIME 2024-2025, consacré aux olympiades de mathématiques de niveau lycée, le modèle reste dans une zone intermédiaire plutôt que marginale. Ces résultats décrivent un modèle capable de traiter des tâches de raisonnement structurées, avec un positionnement honorable pour un LLM small de mi-2025.

Limites et points d'attention. L’ancienneté d’environ un an est un point majeur, car cette durée correspond à un décalage très long dans le rythme d’évolution des LLM. Ses performances sont aujourd’hui probablement largement dépassées par les modèles haut de gamme plus récents, et les modèles de cette période sont souvent retirés ou remplacés dans les catalogues des éditeurs. Le score nul sur FrontierMath, benchmark de mathématiques de recherche très difficiles, marque une limite nette sur les problèmes mathématiques avancés. La couverture repose aussi sur une seule source de données concordantes, ce qui réduit la profondeur de validation disponible.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.