MATH (CoT)

MATH (CoT) est une variante du benchmark MATH, créé par D. Hendrycks et al., centrée sur des problèmes de mathématiques de compétition en anglais. Elle repose sur des questions ouvertes à réponse courte, accompagnées d’un raisonnement étape par étape attendu grâce au prompting…

MATH (CoT) est une variante du benchmark MATH, créé par D. Hendrycks et al., centrée sur des problèmes de mathématiques de compétition en anglais. Elle repose sur des questions ouvertes à réponse courte, accompagnées d’un raisonnement étape par étape attendu grâce au prompting Chain-of-Thought.

Ce benchmark sert à apprécier la capacité d’un modèle à résoudre des exercices exigeants, à enchaîner plusieurs étapes de raisonnement et à produire une réponse finale correcte. Il occupe ainsi un rôle important dans l’évaluation des compétences mathématiques formelles des modèles d’IA.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkD. Hendrycks et al.
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes de mathématiques à réponse courte, avec raisonnement étape par étape attendu dans cette variante CoT
Métrique d'évaluationexact match / accuracy sur la réponse finale
AccèsPublic
Languesanglais
Taille du jeu12 500 problèmes
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Llama 3.1 70B InstructMeta68,0 %23 juillet 2024Auto-déclaré
2Ministral 3 (14B Base 2512)Mistral AI67,6 %4 décembre 2025Auto-déclaré
3Mistral Large 3Mistral AI67,6 %1 septembre 2025Auto-déclaré
4Ministral 3 (8B Base 2512)Mistral AI62,6 %4 décembre 2025Auto-déclaré
5Ministral 3 (3B Base 2512)Mistral AI60,1 %4 décembre 2025Auto-déclaré
6Llama 3.1 8B InstructMeta51,9 %23 juillet 2024Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 65,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MATH (CoT) indique qu’un modèle parvient souvent à mener un raisonnement mathématique structuré jusqu’à une réponse finale exacte, mesurée par exact match ou accuracy. La variante CoT met particulièrement en valeur la capacité à expliciter des étapes intermédiaires, même si la métrique retient avant tout la justesse de la réponse finale. La lecture des résultats doit rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante.

  • La portée reste spécialisée : mathématiques de compétition, en anglais, avec réponses courtes.
  • L’accès public peut accroître le risque de contamination des données d’entraînement.
  • Le classement observé montre un peloton resserré, avec une médiane à 65 % et Llama 3.1 70B Instruct (Meta) en tête à 68 %, ce qui suggère des écarts limités entre les modèles évalués plutôt qu’une domination nette.

Sources des scores : llm-stats.