Mistral AI

Magistral Small 1.1

Magistral Small 1.1 est un LLM de Mistral AI publié le 10 juin 2025. Son ancienneté d’environ un an le place déjà dans une génération très datée à l’échelle de l’IA, où les cycles de remplacement sont rapides et où les modèles de cette période sont fréquemment dépassés par les offres…

À sa sortie, Magistral Small 1.1 se situait dans le top 50% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. La fiche sert donc surtout à documenter un modèle intermédiaire de son époque, plutôt qu’un candidat de référence actuel.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI
Date de sortie	10 juin 2025

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	48,4 %	84ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	30,0 %	69ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Magistral Small 1.148 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Mistral Medium…32 %

▶ Magistral Small 1.130 %

Phi 414 %

Notre analyse

Forces. Magistral Small 1.1 montre son meilleur profil sur GPQA diamond, qui évalue des questions scientifiques de niveau doctorat. À sa sortie, ce résultat le plaçait dans la moitié supérieure des LLM comparables de la même période, ce qui indique un niveau correct de raisonnement scientifique pour sa génération. Sur OTIS Mock AIME 2024-2025, consacré aux olympiades de mathématiques de niveau lycée, le modèle reste dans une zone intermédiaire plutôt que marginale. Ces résultats décrivent un modèle capable de traiter des tâches de raisonnement structurées, avec un positionnement honorable pour un LLM small de mi-2025.

Limites et points d'attention. L’ancienneté d’environ un an est un point majeur, car cette durée correspond à un décalage très long dans le rythme d’évolution des LLM. Ses performances sont aujourd’hui probablement largement dépassées par les modèles haut de gamme plus récents, et les modèles de cette période sont souvent retirés ou remplacés dans les catalogues des éditeurs. Le score nul sur FrontierMath, benchmark de mathématiques de recherche très difficiles, marque une limite nette sur les problèmes mathématiques avancés. La couverture repose aussi sur une seule source de données concordantes, ce qui réduit la profondeur de validation disponible.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Magistral Small 1.1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast