Mathématiques

GSM8k

GSM8k est un benchmark de mathématiques en langage naturel conçu par OpenAI, associé à Karl Cobbe et al. Il regroupe des problèmes de niveau école primaire qui demandent plusieurs étapes de raisonnement et des opérations arithmétiques élémentaires.

Dans l’évaluation des modèles d’IA, GSM8k sert à mesurer la capacité à suivre un énoncé, construire une solution intermédiaire et produire une réponse finale correcte. Son format ouvert à réponse courte en fait un repère courant pour comparer le raisonnement mathématique de base.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI (Karl Cobbe et al.)
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte, avec problèmes de mathématiques en langage naturel
Métrique d'évaluation	exact match / accuracy sur la réponse finale
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	8 792 problèmes environ (7 473 entraînement, 1 319 test)
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiMo-V2.5-Pro	Xiaomi	99,6 %	27 avril 2026	Auto-déclaré
2	Kimi K2 Instruct	Moonshot AI	97,3 %	11 juillet 2025	Auto-déclaré
3	o1	OpenAI	97,1 %	17 décembre 2024	Auto-déclaré
4	GPT-5.4	OpenAI	97,0 %	5 mars 2026	Auto-déclaré
5	Llama 3.1 405B Instruct	Meta	96,8 %	23 juillet 2024	Auto-déclaré
6	Claude 3.5 Sonnet	Anthropic	96,4 %	22 octobre 2024	Auto-déclaré
7	Gemma 3 27B	Google	95,9 %	12 mars 2025	Auto-déclaré
8	Qwen2.5 32B Instruct	Qwen	95,9 %	19 septembre 2024	Auto-déclaré
9	Qwen2.5 72B Instruct	Qwen	95,8 %	19 septembre 2024	Auto-déclaré
10	DeepSeek-V2.5	DeepSeek	95,1 %	8 mai 2024	Auto-déclaré
11	Claude 3 Opus	Anthropic	95,0 %	29 février 2024	Auto-déclaré
12	Nova Pro	Amazon	94,8 %	20 novembre 2024	Auto-déclaré
13	Qwen2.5 14B Instruct	Qwen	94,8 %	19 septembre 2024	Auto-déclaré
14	Nova Lite	Amazon	94,5 %	20 novembre 2024	Auto-déclaré
15	Gemma 3 12B	Google	94,4 %	12 mars 2025	Auto-déclaré
16	Qwen3 235B A22B	Qwen	94,4 %	25 juillet 2025	Auto-déclaré
17	Mistral Large 2	Mistral AI	93,0 %	24 juillet 2024	Auto-déclaré
18	Claude 3 Sonnet	Anthropic	92,3 %	29 février 2024	Auto-déclaré
19	Nova Micro	Amazon	92,3 %	20 novembre 2024	Auto-déclaré
20	Kimi K2 Base	Moonshot AI	92,1 %	11 juillet 2025	Auto-déclaré

Classement établi sur 47 modèles évalués, dont 37 de grands éditeurs. Score médian de l'ensemble : 91,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur GSM8k indique qu’un modèle parvient généralement à résoudre correctement des problèmes arithmétiques formulés en langage naturel, avec une réponse finale évaluée en exact match ou accuracy. Le niveau médian observé dans la base, 91 %, montre que le benchmark est désormais bien maîtrisé par de nombreux modèles, tandis que MiMo-V2.5-Pro (Xiaomi) atteint 100 % dans le classement recensé.

Cette performance doit être interprétée avec prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles si les protocoles ne sont pas vérifiés de manière indépendante. Le benchmark peut aussi souffrir de saturation, car de très hauts scores réduisent sa capacité à distinguer les meilleurs systèmes. Sa diffusion publique et sa licence ouverte augmentent en outre le risque de contamination des données d’entraînement. Enfin, GSM8k évalue une portée précise, le raisonnement arithmétique scolaire en anglais, sans couvrir l’ensemble des compétences mathématiques ou scientifiques d’un modèle.

Sources des scores : llm-stats.

GSM8k

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench