MathArena Apex
MathArena Apex est un benchmark public de mathématiques avancées conçu pour évaluer le raisonnement de modèles d’IA sur des problèmes de niveau olympiade parmi les plus difficiles. Créé par SRI Lab (ETH Zurich) et INSAIT, il cible des tâches exigeant une résolution multi-étapes et une…
MathArena Apex est un benchmark public de mathématiques avancées conçu pour évaluer le raisonnement de modèles d’IA sur des problèmes de niveau olympiade parmi les plus difficiles. Créé par SRI Lab (ETH Zurich) et INSAIT, il cible des tâches exigeant une résolution multi-étapes et une réponse finale.
Son rôle est de tester la capacité des modèles à dépasser l’application directe de méthodes connues pour construire des raisonnements mathématiques complexes. Il sert ainsi de repère spécialisé pour comparer les performances sur un domaine où la précision logique et la robustesse du raisonnement sont centrales.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | SRI Lab (ETH Zurich) et INSAIT |
| Capacités mesurées | Raisonnement mathematique avance de niveau olympiade sur les problemes les plus difficiles, multi-etapes. |
| Modalité | Texte |
| Type de questions | Problemes mathematiques a reponse finale (niveau olympiade) |
| Métrique d'évaluation | pass@k (pass@16 pour Apex) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 12 problemes (6 a reponse finale + 6 adaptes de competitions a preuve) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Pro-Max | DeepSeek | 90,2 % | 23 avril 2026 | Auto-déclaré |
| 2 | DeepSeek-V4-Flash-Max | DeepSeek | 85,7 % | 23 avril 2026 | Auto-déclaré |
| 3 | Qwen3.7 Max | Qwen | 44,5 % | 19 mai 2026 | Auto-déclaré |
| 4 | Seed 2.1 Turbo | bytedance | 35,4 % | 24 juin 2026 | Auto-déclaré |
| 5 | Seed 2.1 Pro | bytedance | 31,3 % | 24 juin 2026 | Auto-déclaré |
| 6 | Gemini 3 Pro | 23,4 % | 18 novembre 2025 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 39,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MathArena Apex indique une forte capacité à résoudre des problèmes mathématiques très exigeants, avec un raisonnement structuré sur plusieurs étapes et une bonne fiabilité dans la production d’une réponse finale. La métrique pass@k, utilisée ici avec pass@16, reflète la probabilité de trouver une solution correcte parmi plusieurs tentatives, ce qui valorise à la fois la puissance de raisonnement et la diversité des sorties. L’interprétation du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, avec une rigueur de vérification potentiellement variable. Le jeu est aussi très restreint, ce qui limite la portée statistique et peut accentuer les écarts apparents entre modèles. Une saturation est possible si les meilleurs systèmes approchent régulièrement la résolution complète, et la contamination ne peut pas être exclue pour un benchmark public. Dans la base, l’écart entre le score médian et le meilleur résultat de DeepSeek-V4-Pro-Max suggère une forte différenciation entre modèles sur ce type de raisonnement olympiade.
Sources des scores : llm-stats.