Beyond AIME
Beyond AIME est un benchmark de raisonnement mathématique publié en 2025 par l’équipe Seed de ByteDance. Il s’inscrit dans la famille des évaluations inspirées des concours de mathématiques, avec des problèmes originaux à réponse courte ou numérique.
Beyond AIME est un benchmark de raisonnement mathématique publié en 2025 par l’équipe Seed de ByteDance. Il s’inscrit dans la famille des évaluations inspirées des concours de mathématiques, avec des problèmes originaux à réponse courte ou numérique.
Son objectif est de pousser les modèles au-delà des jeux AIME standard, en testant des chaînes de raisonnement plus longues, des décompositions plus difficiles et une moindre dépendance à la mémorisation. Il sert ainsi à distinguer les modèles capables de résoudre des problèmes mathématiques non triviaux avec une démarche robuste.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | ByteDance (equipe Seed) |
| Capacités mesurées | Evalue le raisonnement mathematique profond avec des chaines de raisonnement plus longues et des decompositions plus difficiles que les jeux de type AIME standard, en limitant la memorisation. |
| Modalité | Texte |
| Type de questions | Problemes mathematiques de competition a reponse courte/numerique (originaux, non triviaux) |
| Métrique d'évaluation | Exactitude (accuracy), generalement moyennee sur plusieurs echantillons |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 100 problemes |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Turbo | bytedance | 88,0 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Pro | bytedance | 87,0 % | 24 juin 2026 | Auto-déclaré |
| 3 | Sarvam-105B | sarvamai | 69,1 % | 6 mars 2026 | Auto-déclaré |
| 4 | Mistral Medium 3.5 | Mistral AI | 66,9 % | 29 avril 2026 | Auto-déclaré |
| 5 | Sarvam-30B | sarvamai | 58,3 % | 6 mars 2026 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 69,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Beyond AIME indique une forte capacité à mener un raisonnement mathématique structuré jusqu’à une réponse exacte, dans un cadre où les problèmes demandent davantage qu’une reconnaissance de motifs. L’exactitude, souvent moyennée sur plusieurs échantillons, valorise les modèles capables de produire régulièrement la bonne réponse malgré la difficulté des décompositions. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le format réduit aussi la portée du signal : il mesure des problèmes de compétition en anglais, à réponse courte ou numérique, et non l’ensemble des compétences mathématiques ou scientifiques. Le jeu compte 100 problèmes, ce qui rend la contamination moins centrale grâce au caractère original des questions, sans l’exclure totalement. Le classement montre un niveau médian élevé, tandis que Seed 2.1 Turbo atteint le meilleur score observé, sans indiquer une saturation complète du benchmark.
Sources des scores : llm-stats.