Mathématiques

MGSM

MGSM, pour Multilingual Grade School Math, est un benchmark publié en 2022 par Google Research et F. Shi et al. Il adapte des problèmes de mathématiques de niveau école primaire issus de GSM8K dans dix langues typologiquement diverses, afin d’évaluer le raisonnement arithmétique…

Le test repose sur des questions ouvertes appelant une réponse numérique courte. Il sert à mesurer la capacité d’un modèle à comprendre un énoncé mathématique dans différentes langues, à effectuer les étapes de calcul nécessaires et à produire une réponse exacte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google Research / F. Shi et al.
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte numérique
Métrique d'évaluation	accuracy / exact match
Accès	Public
Langues	multilingue (10 langues : espagnol, français, allemand, russe, chinois, japonais, thaï, swahili, bengali, télougou)
Taille du jeu	250 problèmes par langue, soit 2 500 items traduits au total
Année de publication	2022
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Llama 4 Maverick	Meta	92,3 %	5 avril 2025	Auto-déclaré
2	o3-mini	OpenAI	92,0 %	30 janvier 2025	Auto-déclaré
3	Claude 3.5 Sonnet	Anthropic	91,6 %	22 octobre 2024	Auto-déclaré
4	Llama 3.3 70B Instruct	Meta	91,1 %	6 décembre 2024	Auto-déclaré
5	o1-preview	OpenAI	90,8 %	12 septembre 2024	Auto-déclaré
6	Claude 3 Opus	Anthropic	90,7 %	29 février 2024	Auto-déclaré
7	Llama 4 Scout	Meta	90,6 %	5 avril 2025	Auto-déclaré
8	GPT-4o	OpenAI	90,5 %	27 mars 2025	Auto-déclaré
9	o1	OpenAI	89,3 %	17 décembre 2024	Auto-déclaré
10	GPT-4 Turbo	OpenAI	88,5 %	9 avril 2024	Auto-déclaré
11	Gemini 1.5 Pro	Google	87,5 %	1 mai 2024	Auto-déclaré
12	GPT-4o mini	OpenAI	87,0 %	18 juillet 2024	Auto-déclaré
13	Llama 3.2 90B Instruct	Meta	86,9 %	25 septembre 2024	Auto-déclaré
14	Claude 3.5 Haiku	Anthropic	85,6 %	4 novembre 2024	Auto-déclaré
15	Qwen3 235B A22B	Qwen	83,5 %	25 juillet 2025	Auto-déclaré
16	Claude 3 Sonnet	Anthropic	83,5 %	29 février 2024	Auto-déclaré
17	Gemini 1.5 Flash	Google	82,6 %	1 mai 2024	Auto-déclaré
18	Phi 4	Microsoft	80,6 %	12 décembre 2024	Auto-déclaré
19	Claude 3 Haiku	Anthropic	75,1 %	13 mars 2024	Auto-déclaré
20	GPT-4	OpenAI	74,5 %	28 août 2023	Auto-déclaré

Classement établi sur 30 modèles évalués, dont 30 de grands éditeurs. Score médian de l'ensemble : 83,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MGSM indique une bonne maîtrise conjointe de la compréhension multilingue, du raisonnement arithmétique et de la génération d’une réponse numérique exacte. La métrique accuracy / exact match rend l’évaluation stricte, car une réponse n’est comptée correcte que si elle correspond au résultat attendu. Dans la base considérée, le score médian atteint 84 %, tandis que Llama 4 Maverick (Meta) atteint 92 %, ce qui suggère un benchmark déjà assez bien maîtrisé par les meilleurs modèles évalués.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité si les conditions d’évaluation ne sont pas homogènes. MGSM couvre un périmètre précis, les mathématiques de niveau école primaire en dix langues, et ne mesure pas d’autres formes de raisonnement mathématique. Son origine à partir de GSM8K et son accès public peuvent aussi exposer le benchmark à des risques de contamination. Le classement révèle donc surtout la solidité relative des modèles sur un raisonnement arithmétique multilingue court, plus qu’une capacité mathématique générale.

Sources des scores : llm-stats.

MGSM

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench