MATH (CoT)
MATH (CoT) est une variante du benchmark MATH, créé par D. Hendrycks et al., centrée sur des problèmes de mathématiques de compétition en anglais. Elle repose sur des questions ouvertes à réponse courte, accompagnées d’un raisonnement étape par étape attendu grâce au prompting…
MATH (CoT) est une variante du benchmark MATH, créé par D. Hendrycks et al., centrée sur des problèmes de mathématiques de compétition en anglais. Elle repose sur des questions ouvertes à réponse courte, accompagnées d’un raisonnement étape par étape attendu grâce au prompting Chain-of-Thought.
Ce benchmark sert à apprécier la capacité d’un modèle à résoudre des exercices exigeants, à enchaîner plusieurs étapes de raisonnement et à produire une réponse finale correcte. Il occupe ainsi un rôle important dans l’évaluation des compétences mathématiques formelles des modèles d’IA.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | D. Hendrycks et al. |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes de mathématiques à réponse courte, avec raisonnement étape par étape attendu dans cette variante CoT |
| Métrique d'évaluation | exact match / accuracy sur la réponse finale |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 12 500 problèmes |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Llama 3.1 70B Instruct | Meta | 68,0 % | 23 juillet 2024 | Auto-déclaré |
| 2 | Ministral 3 (14B Base 2512) | Mistral AI | 67,6 % | 4 décembre 2025 | Auto-déclaré |
| 3 | Mistral Large 3 | Mistral AI | 67,6 % | 1 septembre 2025 | Auto-déclaré |
| 4 | Ministral 3 (8B Base 2512) | Mistral AI | 62,6 % | 4 décembre 2025 | Auto-déclaré |
| 5 | Ministral 3 (3B Base 2512) | Mistral AI | 60,1 % | 4 décembre 2025 | Auto-déclaré |
| 6 | Llama 3.1 8B Instruct | Meta | 51,9 % | 23 juillet 2024 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 65,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MATH (CoT) indique qu’un modèle parvient souvent à mener un raisonnement mathématique structuré jusqu’à une réponse finale exacte, mesurée par exact match ou accuracy. La variante CoT met particulièrement en valeur la capacité à expliciter des étapes intermédiaires, même si la métrique retient avant tout la justesse de la réponse finale. La lecture des résultats doit rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante.
- La portée reste spécialisée : mathématiques de compétition, en anglais, avec réponses courtes.
- L’accès public peut accroître le risque de contamination des données d’entraînement.
- Le classement observé montre un peloton resserré, avec une médiane à 65 % et Llama 3.1 70B Instruct (Meta) en tête à 68 %, ce qui suggère des écarts limités entre les modèles évalués plutôt qu’une domination nette.
Sources des scores : llm-stats.