Contexte long

RULER

RULER est un benchmark synthétique de contexte long créé par NVIDIA et publié en 2024. Il évalue la capacité des modèles d’IA à exploiter des entrées très étendues, en observant notamment la récupération d’information, le suivi multi-sauts, l’agrégation et la question-réponse.

Son rôle est de mesurer non seulement la réussite sur des tâches à réponse courte ou structurée, mais aussi la manière dont la qualité se dégrade quand la longueur d’entrée augmente. Il sert ainsi à comparer la robustesse des modèles face aux longs contextes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	NVIDIA
Capacités mesurées	contexte long, raisonnement
Modalité	Texte
Type de questions	tâches synthétiques de contexte long avec réponses courtes ou structurées
Métrique d'évaluation	accuracy
Accès	Public
Licence	Apache-2.0
Langues	anglais
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Nemotron 3 Ultra (550B A55B)	NVIDIA	94,7 %	4 juin 2026	Auto-déclaré
2	Nemotron 3 Super (120B A12B)	NVIDIA	91,8 %	11 mars 2026	Auto-déclaré
3	Phi-3.5-MoE-instruct	Microsoft	87,1 %	23 août 2024	Auto-déclaré
4	Phi-3.5-mini-instruct	Microsoft	84,1 %	23 août 2024	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 89,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur RULER indique qu’un modèle conserve une bonne accuracy lorsqu’il doit retrouver, relier ou agréger des informations dans de longs contextes synthétiques en anglais. Dans la base considérée, le niveau médian atteint 89 %, et le meilleur résultat revient à Nemotron 3 Ultra (550B A55B) (NVIDIA) avec 95 %, ce qui suggère une forte maîtrise des tâches couvertes par ce benchmark. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement mesurée dans un cadre unique. Les limites tiennent aussi à la nature synthétique des tâches, à la portée linguistique limitée à l’anglais et au format de réponses courtes ou structurées. Un risque de saturation peut apparaître si les meilleurs modèles se rapprochent fortement du plafond de la métrique, tandis que l’accès public impose de garder à l’esprit la possibilité de contamination. Le classement met surtout en évidence la solidité relative des modèles sur le long contexte, sans résumer leur qualité générale.

Sources des scores : llm-stats.

RULER

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++