AMC_2022_23
AMC_2022_23 est un benchmark issu des compétitions American Mathematics Competition de l’année scolaire 2022-23, organisées par la Mathematical Association of America. Il rassemble des problèmes de mathématiques à choix multiples conçus pour des lycéens, avec un accent sur le…
AMC_2022_23 est un benchmark issu des compétitions American Mathematics Competition de l’année scolaire 2022-23, organisées par la Mathematical Association of America. Il rassemble des problèmes de mathématiques à choix multiples conçus pour des lycéens, avec un accent sur le raisonnement plutôt que sur l’application mécanique de formules.
Le benchmark sert à évaluer la capacité des modèles d’IA à résoudre des problèmes non routiniers en algèbre, géométrie, théorie des nombres, combinatoire et stratégies de résolution. Il constitue un indicateur ciblé de raisonnement mathématique compétitif en anglais.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Mathematical Association of America (MAA) |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | propriétaire |
| Langues | anglais |
| Taille du jeu | environ 100 questions |
| Année de publication | 2023 |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Mistral Large 3 (675B Base) | Mistral AI | 52,0 % | 4 décembre 2025 | Auto-déclaré |
| 2 | Mistral Large 3 (675B Instruct 2512 Eagle) | Mistral AI | 52,0 % | 4 décembre 2025 | Auto-déclaré |
| 3 | Mistral Large 3 (675B Instruct 2512 NVFP4) | Mistral AI | 52,0 % | 4 décembre 2025 | Auto-déclaré |
| 4 | Mistral Large 3 (675B Instruct 2512) | Mistral AI | 52,0 % | 4 décembre 2025 | Auto-déclaré |
| 5 | Gemini 1.5 Pro | 46,4 % | 1 mai 2024 | Auto-déclaré | |
| 6 | Gemini 1.5 Flash | 34,8 % | 1 mai 2024 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 52,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AMC_2022_23 indique une bonne capacité à manipuler des concepts mathématiques de niveau lycée dans des contextes exigeants, avec des choix multiples qui testent à la fois le calcul, l’intuition et la sélection de stratégies. La métrique utilisée, l’accuracy, rend l’interprétation directe, mais ne distingue pas les erreurs de raisonnement des réponses choisies par élimination ou par hasard.
La lecture du classement appelle une certaine prudence. Les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite dans des conditions homogènes. Le jeu reste d’ampleur limitée, environ 100 questions, en anglais, et dérivé de compétitions officielles publiques, ce qui peut exposer l’évaluation à des risques de contamination des données d’entraînement. Dans l’échantillon observé, 6 modèles sont évalués et Mistral Large 3 (675B Base) atteint 52 %, soit le même niveau que la médiane, ce qui suggère un classement peu étagé dans cette base plutôt qu’une domination nette d’un modèle.
Sources des scores : llm-stats.