AMC_2022_23

AMC_2022_23 est un benchmark issu des compétitions American Mathematics Competition de l’année scolaire 2022-23, organisées par la Mathematical Association of America. Il rassemble des problèmes de mathématiques à choix multiples conçus pour des lycéens, avec un accent sur le…

AMC_2022_23 est un benchmark issu des compétitions American Mathematics Competition de l’année scolaire 2022-23, organisées par la Mathematical Association of America. Il rassemble des problèmes de mathématiques à choix multiples conçus pour des lycéens, avec un accent sur le raisonnement plutôt que sur l’application mécanique de formules.

Le benchmark sert à évaluer la capacité des modèles d’IA à résoudre des problèmes non routiniers en algèbre, géométrie, théorie des nombres, combinatoire et stratégies de résolution. Il constitue un indicateur ciblé de raisonnement mathématique compétitif en anglais.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMathematical Association of America (MAA)
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Licencepropriétaire
Languesanglais
Taille du jeuenviron 100 questions
Année de publication2023

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Mistral Large 3 (675B Base)Mistral AI52,0 %4 décembre 2025Auto-déclaré
2Mistral Large 3 (675B Instruct 2512 Eagle)Mistral AI52,0 %4 décembre 2025Auto-déclaré
3Mistral Large 3 (675B Instruct 2512 NVFP4)Mistral AI52,0 %4 décembre 2025Auto-déclaré
4Mistral Large 3 (675B Instruct 2512)Mistral AI52,0 %4 décembre 2025Auto-déclaré
5Gemini 1.5 ProGoogle46,4 %1 mai 2024Auto-déclaré
6Gemini 1.5 FlashGoogle34,8 %1 mai 2024Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 52,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AMC_2022_23 indique une bonne capacité à manipuler des concepts mathématiques de niveau lycée dans des contextes exigeants, avec des choix multiples qui testent à la fois le calcul, l’intuition et la sélection de stratégies. La métrique utilisée, l’accuracy, rend l’interprétation directe, mais ne distingue pas les erreurs de raisonnement des réponses choisies par élimination ou par hasard.

La lecture du classement appelle une certaine prudence. Les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite dans des conditions homogènes. Le jeu reste d’ampleur limitée, environ 100 questions, en anglais, et dérivé de compétitions officielles publiques, ce qui peut exposer l’évaluation à des risques de contamination des données d’entraînement. Dans l’échantillon observé, 6 modèles sont évalués et Mistral Large 3 (675B Base) atteint 52 %, soit le même niveau que la médiane, ce qui suggère un classement peu étagé dans cette base plutôt qu’une domination nette d’un modèle.


Sources des scores : llm-stats.