GSM8k

GSM8k est un benchmark de mathématiques en langage naturel conçu par OpenAI, associé à Karl Cobbe et al. Il regroupe des problèmes de niveau école primaire qui demandent plusieurs étapes de raisonnement et des opérations arithmétiques élémentaires.

GSM8k est un benchmark de mathématiques en langage naturel conçu par OpenAI, associé à Karl Cobbe et al. Il regroupe des problèmes de niveau école primaire qui demandent plusieurs étapes de raisonnement et des opérations arithmétiques élémentaires.

Dans l’évaluation des modèles d’IA, GSM8k sert à mesurer la capacité à suivre un énoncé, construire une solution intermédiaire et produire une réponse finale correcte. Son format ouvert à réponse courte en fait un repère courant pour comparer le raisonnement mathématique de base.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI (Karl Cobbe et al.)
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte, avec problèmes de mathématiques en langage naturel
Métrique d'évaluationexact match / accuracy sur la réponse finale
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeu8 792 problèmes environ (7 473 entraînement, 1 319 test)
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1MiMo-V2.5-ProXiaomi99,6 %27 avril 2026Auto-déclaré
2Kimi K2 InstructMoonshot AI97,3 %11 juillet 2025Auto-déclaré
3o1OpenAI97,1 %17 décembre 2024Auto-déclaré
4GPT-5.4OpenAI97,0 %5 mars 2026Auto-déclaré
5Llama 3.1 405B InstructMeta96,8 %23 juillet 2024Auto-déclaré
6Claude 3.5 SonnetAnthropic96,4 %22 octobre 2024Auto-déclaré
7Gemma 3 27BGoogle95,9 %12 mars 2025Auto-déclaré
8Qwen2.5 32B InstructQwen95,9 %19 septembre 2024Auto-déclaré
9Qwen2.5 72B InstructQwen95,8 %19 septembre 2024Auto-déclaré
10DeepSeek-V2.5DeepSeek95,1 %8 mai 2024Auto-déclaré
11Claude 3 OpusAnthropic95,0 %29 février 2024Auto-déclaré
12Nova ProAmazon94,8 %20 novembre 2024Auto-déclaré
13Qwen2.5 14B InstructQwen94,8 %19 septembre 2024Auto-déclaré
14Nova LiteAmazon94,5 %20 novembre 2024Auto-déclaré
15Gemma 3 12BGoogle94,4 %12 mars 2025Auto-déclaré
16Qwen3 235B A22BQwen94,4 %25 juillet 2025Auto-déclaré
17Mistral Large 2Mistral AI93,0 %24 juillet 2024Auto-déclaré
18Claude 3 SonnetAnthropic92,3 %29 février 2024Auto-déclaré
19Nova MicroAmazon92,3 %20 novembre 2024Auto-déclaré
20Kimi K2 BaseMoonshot AI92,1 %11 juillet 2025Auto-déclaré

Classement établi sur 47 modèles évalués, dont 37 de grands éditeurs. Score médian de l'ensemble : 91,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur GSM8k indique qu’un modèle parvient généralement à résoudre correctement des problèmes arithmétiques formulés en langage naturel, avec une réponse finale évaluée en exact match ou accuracy. Le niveau médian observé dans la base, 91 %, montre que le benchmark est désormais bien maîtrisé par de nombreux modèles, tandis que MiMo-V2.5-Pro (Xiaomi) atteint 100 % dans le classement recensé.

Cette performance doit être interprétée avec prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles si les protocoles ne sont pas vérifiés de manière indépendante. Le benchmark peut aussi souffrir de saturation, car de très hauts scores réduisent sa capacité à distinguer les meilleurs systèmes. Sa diffusion publique et sa licence ouverte augmentent en outre le risque de contamination des données d’entraînement. Enfin, GSM8k évalue une portée précise, le raisonnement arithmétique scolaire en anglais, sans couvrir l’ensemble des compétences mathématiques ou scientifiques d’un modèle.


Sources des scores : llm-stats.