Beyond AIME

Beyond AIME est un benchmark de raisonnement mathématique publié en 2025 par l’équipe Seed de ByteDance. Il s’inscrit dans la famille des évaluations inspirées des concours de mathématiques, avec des problèmes originaux à réponse courte ou numérique.

Beyond AIME est un benchmark de raisonnement mathématique publié en 2025 par l’équipe Seed de ByteDance. Il s’inscrit dans la famille des évaluations inspirées des concours de mathématiques, avec des problèmes originaux à réponse courte ou numérique.

Son objectif est de pousser les modèles au-delà des jeux AIME standard, en testant des chaînes de raisonnement plus longues, des décompositions plus difficiles et une moindre dépendance à la mémorisation. Il sert ainsi à distinguer les modèles capables de résoudre des problèmes mathématiques non triviaux avec une démarche robuste.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkByteDance (equipe Seed)
Capacités mesuréesEvalue le raisonnement mathematique profond avec des chaines de raisonnement plus longues et des decompositions plus difficiles que les jeux de type AIME standard, en limitant la memorisation.
ModalitéTexte
Type de questionsProblemes mathematiques de competition a reponse courte/numerique (originaux, non triviaux)
Métrique d'évaluationExactitude (accuracy), generalement moyennee sur plusieurs echantillons
AccèsPublic
LanguesAnglais
Taille du jeu100 problemes
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Turbobytedance88,0 %24 juin 2026Auto-déclaré
2Seed 2.1 Probytedance87,0 %24 juin 2026Auto-déclaré
3Sarvam-105Bsarvamai69,1 %6 mars 2026Auto-déclaré
4Mistral Medium 3.5Mistral AI66,9 %29 avril 2026Auto-déclaré
5Sarvam-30Bsarvamai58,3 %6 mars 2026Auto-déclaré

Classement établi sur 5 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 69,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Beyond AIME indique une forte capacité à mener un raisonnement mathématique structuré jusqu’à une réponse exacte, dans un cadre où les problèmes demandent davantage qu’une reconnaissance de motifs. L’exactitude, souvent moyennée sur plusieurs échantillons, valorise les modèles capables de produire régulièrement la bonne réponse malgré la difficulté des décompositions. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le format réduit aussi la portée du signal : il mesure des problèmes de compétition en anglais, à réponse courte ou numérique, et non l’ensemble des compétences mathématiques ou scientifiques. Le jeu compte 100 problèmes, ce qui rend la contamination moins centrale grâce au caractère original des questions, sans l’exclure totalement. Le classement montre un niveau médian élevé, tandis que Seed 2.1 Turbo atteint le meilleur score observé, sans indiquer une saturation complète du benchmark.


Sources des scores : llm-stats.