MGSM

MGSM, pour Multilingual Grade School Math, est un benchmark publié en 2022 par Google Research et F. Shi et al. Il adapte des problèmes de mathématiques de niveau école primaire issus de GSM8K dans dix langues typologiquement diverses, afin d’évaluer le raisonnement arithmétique…

MGSM, pour Multilingual Grade School Math, est un benchmark publié en 2022 par Google Research et F. Shi et al. Il adapte des problèmes de mathématiques de niveau école primaire issus de GSM8K dans dix langues typologiquement diverses, afin d’évaluer le raisonnement arithmétique multilingue des modèles.

Le test repose sur des questions ouvertes appelant une réponse numérique courte. Il sert à mesurer la capacité d’un modèle à comprendre un énoncé mathématique dans différentes langues, à effectuer les étapes de calcul nécessaires et à produire une réponse exacte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle Research / F. Shi et al.
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte numérique
Métrique d'évaluationaccuracy / exact match
AccèsPublic
Languesmultilingue (10 langues : espagnol, français, allemand, russe, chinois, japonais, thaï, swahili, bengali, télougou)
Taille du jeu250 problèmes par langue, soit 2 500 items traduits au total
Année de publication2022
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Llama 4 MaverickMeta92,3 %5 avril 2025Auto-déclaré
2o3-miniOpenAI92,0 %30 janvier 2025Auto-déclaré
3Claude 3.5 SonnetAnthropic91,6 %22 octobre 2024Auto-déclaré
4Llama 3.3 70B InstructMeta91,1 %6 décembre 2024Auto-déclaré
5o1-previewOpenAI90,8 %12 septembre 2024Auto-déclaré
6Claude 3 OpusAnthropic90,7 %29 février 2024Auto-déclaré
7Llama 4 ScoutMeta90,6 %5 avril 2025Auto-déclaré
8GPT-4oOpenAI90,5 %27 mars 2025Auto-déclaré
9o1OpenAI89,3 %17 décembre 2024Auto-déclaré
10GPT-4 TurboOpenAI88,5 %9 avril 2024Auto-déclaré
11Gemini 1.5 ProGoogle87,5 %1 mai 2024Auto-déclaré
12GPT-4o miniOpenAI87,0 %18 juillet 2024Auto-déclaré
13Llama 3.2 90B InstructMeta86,9 %25 septembre 2024Auto-déclaré
14Claude 3.5 HaikuAnthropic85,6 %4 novembre 2024Auto-déclaré
15Qwen3 235B A22BQwen83,5 %25 juillet 2025Auto-déclaré
16Claude 3 SonnetAnthropic83,5 %29 février 2024Auto-déclaré
17Gemini 1.5 FlashGoogle82,6 %1 mai 2024Auto-déclaré
18Phi 4Microsoft80,6 %12 décembre 2024Auto-déclaré
19Claude 3 HaikuAnthropic75,1 %13 mars 2024Auto-déclaré
20GPT-4OpenAI74,5 %28 août 2023Auto-déclaré

Classement établi sur 30 modèles évalués, dont 30 de grands éditeurs. Score médian de l'ensemble : 83,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MGSM indique une bonne maîtrise conjointe de la compréhension multilingue, du raisonnement arithmétique et de la génération d’une réponse numérique exacte. La métrique accuracy / exact match rend l’évaluation stricte, car une réponse n’est comptée correcte que si elle correspond au résultat attendu. Dans la base considérée, le score médian atteint 84 %, tandis que Llama 4 Maverick (Meta) atteint 92 %, ce qui suggère un benchmark déjà assez bien maîtrisé par les meilleurs modèles évalués.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité si les conditions d’évaluation ne sont pas homogènes. MGSM couvre un périmètre précis, les mathématiques de niveau école primaire en dix langues, et ne mesure pas d’autres formes de raisonnement mathématique. Son origine à partir de GSM8K et son accès public peuvent aussi exposer le benchmark à des risques de contamination. Le classement révèle donc surtout la solidité relative des modèles sur un raisonnement arithmétique multilingue court, plus qu’une capacité mathématique générale.


Sources des scores : llm-stats.