GSM8k
GSM8k est un benchmark de mathématiques en langage naturel conçu par OpenAI, associé à Karl Cobbe et al. Il regroupe des problèmes de niveau école primaire qui demandent plusieurs étapes de raisonnement et des opérations arithmétiques élémentaires.
GSM8k est un benchmark de mathématiques en langage naturel conçu par OpenAI, associé à Karl Cobbe et al. Il regroupe des problèmes de niveau école primaire qui demandent plusieurs étapes de raisonnement et des opérations arithmétiques élémentaires.
Dans l’évaluation des modèles d’IA, GSM8k sert à mesurer la capacité à suivre un énoncé, construire une solution intermédiaire et produire une réponse finale correcte. Son format ouvert à réponse courte en fait un repère courant pour comparer le raisonnement mathématique de base.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI (Karl Cobbe et al.) |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte, avec problèmes de mathématiques en langage naturel |
| Métrique d'évaluation | exact match / accuracy sur la réponse finale |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | 8 792 problèmes environ (7 473 entraînement, 1 319 test) |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiMo-V2.5-Pro | Xiaomi | 99,6 % | 27 avril 2026 | Auto-déclaré |
| 2 | Kimi K2 Instruct | Moonshot AI | 97,3 % | 11 juillet 2025 | Auto-déclaré |
| 3 | o1 | OpenAI | 97,1 % | 17 décembre 2024 | Auto-déclaré |
| 4 | GPT-5.4 | OpenAI | 97,0 % | 5 mars 2026 | Auto-déclaré |
| 5 | Llama 3.1 405B Instruct | Meta | 96,8 % | 23 juillet 2024 | Auto-déclaré |
| 6 | Claude 3.5 Sonnet | Anthropic | 96,4 % | 22 octobre 2024 | Auto-déclaré |
| 7 | Gemma 3 27B | 95,9 % | 12 mars 2025 | Auto-déclaré | |
| 8 | Qwen2.5 32B Instruct | Qwen | 95,9 % | 19 septembre 2024 | Auto-déclaré |
| 9 | Qwen2.5 72B Instruct | Qwen | 95,8 % | 19 septembre 2024 | Auto-déclaré |
| 10 | DeepSeek-V2.5 | DeepSeek | 95,1 % | 8 mai 2024 | Auto-déclaré |
| 11 | Claude 3 Opus | Anthropic | 95,0 % | 29 février 2024 | Auto-déclaré |
| 12 | Nova Pro | Amazon | 94,8 % | 20 novembre 2024 | Auto-déclaré |
| 13 | Qwen2.5 14B Instruct | Qwen | 94,8 % | 19 septembre 2024 | Auto-déclaré |
| 14 | Nova Lite | Amazon | 94,5 % | 20 novembre 2024 | Auto-déclaré |
| 15 | Gemma 3 12B | 94,4 % | 12 mars 2025 | Auto-déclaré | |
| 16 | Qwen3 235B A22B | Qwen | 94,4 % | 25 juillet 2025 | Auto-déclaré |
| 17 | Mistral Large 2 | Mistral AI | 93,0 % | 24 juillet 2024 | Auto-déclaré |
| 18 | Claude 3 Sonnet | Anthropic | 92,3 % | 29 février 2024 | Auto-déclaré |
| 19 | Nova Micro | Amazon | 92,3 % | 20 novembre 2024 | Auto-déclaré |
| 20 | Kimi K2 Base | Moonshot AI | 92,1 % | 11 juillet 2025 | Auto-déclaré |
Classement établi sur 47 modèles évalués, dont 37 de grands éditeurs. Score médian de l'ensemble : 91,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur GSM8k indique qu’un modèle parvient généralement à résoudre correctement des problèmes arithmétiques formulés en langage naturel, avec une réponse finale évaluée en exact match ou accuracy. Le niveau médian observé dans la base, 91 %, montre que le benchmark est désormais bien maîtrisé par de nombreux modèles, tandis que MiMo-V2.5-Pro (Xiaomi) atteint 100 % dans le classement recensé.
Cette performance doit être interprétée avec prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles si les protocoles ne sont pas vérifiés de manière indépendante. Le benchmark peut aussi souffrir de saturation, car de très hauts scores réduisent sa capacité à distinguer les meilleurs systèmes. Sa diffusion publique et sa licence ouverte augmentent en outre le risque de contamination des données d’entraînement. Enfin, GSM8k évalue une portée précise, le raisonnement arithmétique scolaire en anglais, sans couvrir l’ensemble des compétences mathématiques ou scientifiques d’un modèle.
Sources des scores : llm-stats.