Mathématiques

AMC_2022_23

AMC_2022_23 est un benchmark issu des compétitions American Mathematics Competition de l’année scolaire 2022-23, organisées par la Mathematical Association of America. Il rassemble des problèmes de mathématiques à choix multiples conçus pour des lycéens, avec un accent sur le…

Le benchmark sert à évaluer la capacité des modèles d’IA à résoudre des problèmes non routiniers en algèbre, géométrie, théorie des nombres, combinatoire et stratégies de résolution. Il constitue un indicateur ciblé de raisonnement mathématique compétitif en anglais.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Mathematical Association of America (MAA)
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Licence	propriétaire
Langues	anglais
Taille du jeu	environ 100 questions
Année de publication	2023

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Mistral Large 3 (675B Base)	Mistral AI	52,0 %	4 décembre 2025	Auto-déclaré
2	Mistral Large 3 (675B Instruct 2512 Eagle)	Mistral AI	52,0 %	4 décembre 2025	Auto-déclaré
3	Mistral Large 3 (675B Instruct 2512 NVFP4)	Mistral AI	52,0 %	4 décembre 2025	Auto-déclaré
4	Mistral Large 3 (675B Instruct 2512)	Mistral AI	52,0 %	4 décembre 2025	Auto-déclaré
5	Gemini 1.5 Pro	Google	46,4 %	1 mai 2024	Auto-déclaré
6	Gemini 1.5 Flash	Google	34,8 %	1 mai 2024	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 52,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AMC_2022_23 indique une bonne capacité à manipuler des concepts mathématiques de niveau lycée dans des contextes exigeants, avec des choix multiples qui testent à la fois le calcul, l’intuition et la sélection de stratégies. La métrique utilisée, l’accuracy, rend l’interprétation directe, mais ne distingue pas les erreurs de raisonnement des réponses choisies par élimination ou par hasard.

La lecture du classement appelle une certaine prudence. Les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite dans des conditions homogènes. Le jeu reste d’ampleur limitée, environ 100 questions, en anglais, et dérivé de compétitions officielles publiques, ce qui peut exposer l’évaluation à des risques de contamination des données d’entraînement. Dans l’échantillon observé, 6 modèles sont évalués et Mistral Large 3 (675B Base) atteint 52 %, soit le même niveau que la médiane, ce qui suggère un classement peu étagé dans cette base plutôt qu’une domination nette d’un modèle.

Sources des scores : llm-stats.

AMC_2022_23

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench