MGSM
MGSM, pour Multilingual Grade School Math, est un benchmark publié en 2022 par Google Research et F. Shi et al. Il adapte des problèmes de mathématiques de niveau école primaire issus de GSM8K dans dix langues typologiquement diverses, afin d’évaluer le raisonnement arithmétique…
MGSM, pour Multilingual Grade School Math, est un benchmark publié en 2022 par Google Research et F. Shi et al. Il adapte des problèmes de mathématiques de niveau école primaire issus de GSM8K dans dix langues typologiquement diverses, afin d’évaluer le raisonnement arithmétique multilingue des modèles.
Le test repose sur des questions ouvertes appelant une réponse numérique courte. Il sert à mesurer la capacité d’un modèle à comprendre un énoncé mathématique dans différentes langues, à effectuer les étapes de calcul nécessaires et à produire une réponse exacte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google Research / F. Shi et al. |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte numérique |
| Métrique d'évaluation | accuracy / exact match |
| Accès | Public |
| Langues | multilingue (10 langues : espagnol, français, allemand, russe, chinois, japonais, thaï, swahili, bengali, télougou) |
| Taille du jeu | 250 problèmes par langue, soit 2 500 items traduits au total |
| Année de publication | 2022 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Llama 4 Maverick | Meta | 92,3 % | 5 avril 2025 | Auto-déclaré |
| 2 | o3-mini | OpenAI | 92,0 % | 30 janvier 2025 | Auto-déclaré |
| 3 | Claude 3.5 Sonnet | Anthropic | 91,6 % | 22 octobre 2024 | Auto-déclaré |
| 4 | Llama 3.3 70B Instruct | Meta | 91,1 % | 6 décembre 2024 | Auto-déclaré |
| 5 | o1-preview | OpenAI | 90,8 % | 12 septembre 2024 | Auto-déclaré |
| 6 | Claude 3 Opus | Anthropic | 90,7 % | 29 février 2024 | Auto-déclaré |
| 7 | Llama 4 Scout | Meta | 90,6 % | 5 avril 2025 | Auto-déclaré |
| 8 | GPT-4o | OpenAI | 90,5 % | 27 mars 2025 | Auto-déclaré |
| 9 | o1 | OpenAI | 89,3 % | 17 décembre 2024 | Auto-déclaré |
| 10 | GPT-4 Turbo | OpenAI | 88,5 % | 9 avril 2024 | Auto-déclaré |
| 11 | Gemini 1.5 Pro | 87,5 % | 1 mai 2024 | Auto-déclaré | |
| 12 | GPT-4o mini | OpenAI | 87,0 % | 18 juillet 2024 | Auto-déclaré |
| 13 | Llama 3.2 90B Instruct | Meta | 86,9 % | 25 septembre 2024 | Auto-déclaré |
| 14 | Claude 3.5 Haiku | Anthropic | 85,6 % | 4 novembre 2024 | Auto-déclaré |
| 15 | Qwen3 235B A22B | Qwen | 83,5 % | 25 juillet 2025 | Auto-déclaré |
| 16 | Claude 3 Sonnet | Anthropic | 83,5 % | 29 février 2024 | Auto-déclaré |
| 17 | Gemini 1.5 Flash | 82,6 % | 1 mai 2024 | Auto-déclaré | |
| 18 | Phi 4 | Microsoft | 80,6 % | 12 décembre 2024 | Auto-déclaré |
| 19 | Claude 3 Haiku | Anthropic | 75,1 % | 13 mars 2024 | Auto-déclaré |
| 20 | GPT-4 | OpenAI | 74,5 % | 28 août 2023 | Auto-déclaré |
Classement établi sur 30 modèles évalués, dont 30 de grands éditeurs. Score médian de l'ensemble : 83,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MGSM indique une bonne maîtrise conjointe de la compréhension multilingue, du raisonnement arithmétique et de la génération d’une réponse numérique exacte. La métrique accuracy / exact match rend l’évaluation stricte, car une réponse n’est comptée correcte que si elle correspond au résultat attendu. Dans la base considérée, le score médian atteint 84 %, tandis que Llama 4 Maverick (Meta) atteint 92 %, ce qui suggère un benchmark déjà assez bien maîtrisé par les meilleurs modèles évalués.
La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité si les conditions d’évaluation ne sont pas homogènes. MGSM couvre un périmètre précis, les mathématiques de niveau école primaire en dix langues, et ne mesure pas d’autres formes de raisonnement mathématique. Son origine à partir de GSM8K et son accès public peuvent aussi exposer le benchmark à des risques de contamination. Le classement révèle donc surtout la solidité relative des modèles sur un raisonnement arithmétique multilingue court, plus qu’une capacité mathématique générale.
Sources des scores : llm-stats.