RULER

RULER est un benchmark synthétique de contexte long créé par NVIDIA et publié en 2024. Il évalue la capacité des modèles d’IA à exploiter des entrées très étendues, en observant notamment la récupération d’information, le suivi multi-sauts, l’agrégation et la question-réponse.

RULER est un benchmark synthétique de contexte long créé par NVIDIA et publié en 2024. Il évalue la capacité des modèles d’IA à exploiter des entrées très étendues, en observant notamment la récupération d’information, le suivi multi-sauts, l’agrégation et la question-réponse.

Son rôle est de mesurer non seulement la réussite sur des tâches à réponse courte ou structurée, mais aussi la manière dont la qualité se dégrade quand la longueur d’entrée augmente. Il sert ainsi à comparer la robustesse des modèles face aux longs contextes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkNVIDIA
Capacités mesuréescontexte long, raisonnement
ModalitéTexte
Type de questionstâches synthétiques de contexte long avec réponses courtes ou structurées
Métrique d'évaluationaccuracy
AccèsPublic
LicenceApache-2.0
Languesanglais
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Nemotron 3 Ultra (550B A55B)NVIDIA94,7 %4 juin 2026Auto-déclaré
2Nemotron 3 Super (120B A12B)NVIDIA91,8 %11 mars 2026Auto-déclaré
3Phi-3.5-MoE-instructMicrosoft87,1 %23 août 2024Auto-déclaré
4Phi-3.5-mini-instructMicrosoft84,1 %23 août 2024Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 89,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur RULER indique qu’un modèle conserve une bonne accuracy lorsqu’il doit retrouver, relier ou agréger des informations dans de longs contextes synthétiques en anglais. Dans la base considérée, le niveau médian atteint 89 %, et le meilleur résultat revient à Nemotron 3 Ultra (550B A55B) (NVIDIA) avec 95 %, ce qui suggère une forte maîtrise des tâches couvertes par ce benchmark. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement mesurée dans un cadre unique. Les limites tiennent aussi à la nature synthétique des tâches, à la portée linguistique limitée à l’anglais et au format de réponses courtes ou structurées. Un risque de saturation peut apparaître si les meilleurs modèles se rapprochent fortement du plafond de la métrique, tandis que l’accès public impose de garder à l’esprit la possibilité de contamination. Le classement met surtout en évidence la solidité relative des modèles sur le long contexte, sans résumer leur qualité générale.


Sources des scores : llm-stats.