Mistral Small 3.1

Mistral Small 3.1 est un LLM publié par Mistral AI le 17 mars 2025. Son ancienneté d’environ un an le place déjà dans une catégorie historique à l’échelle de l’IA, où les écarts de performance et de disponibilité évoluent très vite.

Mistral Small 3.1 est un LLM publié par Mistral AI le 17 mars 2025. Son ancienneté d’environ un an le place déjà dans une catégorie historique à l’échelle de l’IA, où les écarts de performance et de disponibilité évoluent très vite.

Ce modèle se lit surtout comme un représentant de sa génération. À sa sortie, il se situait dans la moitié supérieure des LLM comparables sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, sans atteindre le niveau des modèles haut de gamme plus récents.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI
Date de sortie17 mars 2025

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond47,5 %86ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 546,8 %48ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20255,8 %89ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Mistral Small 3.147 %

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Mistral Small 3.147 %

Notre analyse

Forces. Mistral Small 3.1 montre son meilleur profil sur GPQA diamond, où il se plaçait à sa sortie dans le top 44% des LLM de sa période. Ce résultat indique une compétence correcte, pour son époque, sur des questions scientifiques exigeantes. Sur MATH level 5, il reste dans une zone intermédiaire, avec une capacité mesurable sur des problèmes mathématiques difficiles, sans dominer le classement. Son principal intérêt documentaire est donc de situer l’état des modèles compacts ou intermédiaires de Mistral AI au début de 2025.

Limites et points d'attention. L’ancienneté pèse fortement sur l’interprétation. Environ un an représente un cycle long dans l’IA générative, et les performances de Mistral Small 3.1 sont aujourd’hui probablement largement dépassées par les modèles plus récents. Le score très faible sur OTIS Mock AIME 2024-2025 signale une faiblesse nette sur les mathématiques d’olympiades de niveau lycée. La fiche repose aussi sur une seule source de données concordante, ce qui limite la profondeur de comparaison. Le modèle est à considérer comme une référence de sa période, souvent absente des catalogues actuels de l’éditeur.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.