Mathématiques

Beyond AIME

Beyond AIME est un benchmark de raisonnement mathématique publié en 2025 par l’équipe Seed de ByteDance. Il s’inscrit dans la famille des évaluations inspirées des concours de mathématiques, avec des problèmes originaux à réponse courte ou numérique.

Son objectif est de pousser les modèles au-delà des jeux AIME standard, en testant des chaînes de raisonnement plus longues, des décompositions plus difficiles et une moindre dépendance à la mémorisation. Il sert ainsi à distinguer les modèles capables de résoudre des problèmes mathématiques non triviaux avec une démarche robuste.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	ByteDance (equipe Seed)
Capacités mesurées	Evalue le raisonnement mathematique profond avec des chaines de raisonnement plus longues et des decompositions plus difficiles que les jeux de type AIME standard, en limitant la memorisation.
Modalité	Texte
Type de questions	Problemes mathematiques de competition a reponse courte/numerique (originaux, non triviaux)
Métrique d'évaluation	Exactitude (accuracy), generalement moyennee sur plusieurs echantillons
Accès	Public
Langues	Anglais
Taille du jeu	100 problemes
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Turbo	bytedance	88,0 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Pro	bytedance	87,0 %	24 juin 2026	Auto-déclaré
3	Sarvam-105B	sarvamai	69,1 %	6 mars 2026	Auto-déclaré
4	Mistral Medium 3.5	Mistral AI	66,9 %	29 avril 2026	Auto-déclaré
5	Sarvam-30B	sarvamai	58,3 %	6 mars 2026	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 69,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Beyond AIME indique une forte capacité à mener un raisonnement mathématique structuré jusqu’à une réponse exacte, dans un cadre où les problèmes demandent davantage qu’une reconnaissance de motifs. L’exactitude, souvent moyennée sur plusieurs échantillons, valorise les modèles capables de produire régulièrement la bonne réponse malgré la difficulté des décompositions. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le format réduit aussi la portée du signal : il mesure des problèmes de compétition en anglais, à réponse courte ou numérique, et non l’ensemble des compétences mathématiques ou scientifiques. Le jeu compte 100 problèmes, ce qui rend la contamination moins centrale grâce au caractère original des questions, sans l’exclure totalement. Le classement montre un niveau médian élevé, tandis que Seed 2.1 Turbo atteint le meilleur score observé, sans indiquer une saturation complète du benchmark.

Sources des scores : llm-stats.

Beyond AIME

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++