RULER
RULER est un benchmark synthétique de contexte long créé par NVIDIA et publié en 2024. Il évalue la capacité des modèles d’IA à exploiter des entrées très étendues, en observant notamment la récupération d’information, le suivi multi-sauts, l’agrégation et la question-réponse.
RULER est un benchmark synthétique de contexte long créé par NVIDIA et publié en 2024. Il évalue la capacité des modèles d’IA à exploiter des entrées très étendues, en observant notamment la récupération d’information, le suivi multi-sauts, l’agrégation et la question-réponse.
Son rôle est de mesurer non seulement la réussite sur des tâches à réponse courte ou structurée, mais aussi la manière dont la qualité se dégrade quand la longueur d’entrée augmente. Il sert ainsi à comparer la robustesse des modèles face aux longs contextes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | NVIDIA |
| Capacités mesurées | contexte long, raisonnement |
| Modalité | Texte |
| Type de questions | tâches synthétiques de contexte long avec réponses courtes ou structurées |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 94,7 % | 4 juin 2026 | Auto-déclaré |
| 2 | Nemotron 3 Super (120B A12B) | NVIDIA | 91,8 % | 11 mars 2026 | Auto-déclaré |
| 3 | Phi-3.5-MoE-instruct | Microsoft | 87,1 % | 23 août 2024 | Auto-déclaré |
| 4 | Phi-3.5-mini-instruct | Microsoft | 84,1 % | 23 août 2024 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 89,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur RULER indique qu’un modèle conserve une bonne accuracy lorsqu’il doit retrouver, relier ou agréger des informations dans de longs contextes synthétiques en anglais. Dans la base considérée, le niveau médian atteint 89 %, et le meilleur résultat revient à Nemotron 3 Ultra (550B A55B) (NVIDIA) avec 95 %, ce qui suggère une forte maîtrise des tâches couvertes par ce benchmark. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement mesurée dans un cadre unique. Les limites tiennent aussi à la nature synthétique des tâches, à la portée linguistique limitée à l’anglais et au format de réponses courtes ou structurées. Un risque de saturation peut apparaître si les meilleurs modèles se rapprochent fortement du plafond de la métrique, tandis que l’accès public impose de garder à l’esprit la possibilité de contamination. Le classement met surtout en évidence la solidité relative des modèles sur le long contexte, sans résumer leur qualité générale.
Sources des scores : llm-stats.