Mathématiques

MATH (CoT)

MATH (CoT) est une variante du benchmark MATH, créé par D. Hendrycks et al., centrée sur des problèmes de mathématiques de compétition en anglais. Elle repose sur des questions ouvertes à réponse courte, accompagnées d’un raisonnement étape par étape attendu grâce au prompting…

Ce benchmark sert à apprécier la capacité d’un modèle à résoudre des exercices exigeants, à enchaîner plusieurs étapes de raisonnement et à produire une réponse finale correcte. Il occupe ainsi un rôle important dans l’évaluation des compétences mathématiques formelles des modèles d’IA.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	D. Hendrycks et al.
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes de mathématiques à réponse courte, avec raisonnement étape par étape attendu dans cette variante CoT
Métrique d'évaluation	exact match / accuracy sur la réponse finale
Accès	Public
Langues	anglais
Taille du jeu	12 500 problèmes
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Llama 3.1 70B Instruct	Meta	68,0 %	23 juillet 2024	Auto-déclaré
2	Ministral 3 (14B Base 2512)	Mistral AI	67,6 %	4 décembre 2025	Auto-déclaré
3	Mistral Large 3	Mistral AI	67,6 %	1 septembre 2025	Auto-déclaré
4	Ministral 3 (8B Base 2512)	Mistral AI	62,6 %	4 décembre 2025	Auto-déclaré
5	Ministral 3 (3B Base 2512)	Mistral AI	60,1 %	4 décembre 2025	Auto-déclaré
6	Llama 3.1 8B Instruct	Meta	51,9 %	23 juillet 2024	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 65,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MATH (CoT) indique qu’un modèle parvient souvent à mener un raisonnement mathématique structuré jusqu’à une réponse finale exacte, mesurée par exact match ou accuracy. La variante CoT met particulièrement en valeur la capacité à expliciter des étapes intermédiaires, même si la métrique retient avant tout la justesse de la réponse finale. La lecture des résultats doit rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante.

La portée reste spécialisée : mathématiques de compétition, en anglais, avec réponses courtes.
L’accès public peut accroître le risque de contamination des données d’entraînement.
Le classement observé montre un peloton resserré, avec une médiane à 65 % et Llama 3.1 70B Instruct (Meta) en tête à 68 %, ce qui suggère des écarts limités entre les modèles évalués plutôt qu’une domination nette.

Sources des scores : llm-stats.

MATH (CoT)

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23