Contexte long

MRCR

MRCR est un benchmark synthétique conçu par OpenAI pour évaluer le raisonnement en contexte long dans des conversations étendues. Il demande aux modèles de retrouver et de reproduire une sortie précise associée à une occurrence donnée d’une requête répétée, dans un environnement où…

Le test cible la compréhension en contexte long, la résolution de coréférence multi-tours et la désambiguïsation entre demandes quasi identiques. Son intérêt est de mesurer la capacité d’un modèle à maintenir l’attention sur l’ordre, les références et les détails au fil d’un contexte prolongé.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Compréhension en contexte long, résolution de coréférence multi-tours, désambiguïsation entre éléments très similaires
Modalité	Texte
Type de questions	récupération/reproduction en contexte long (retrouver la i-ème occurrence d'une demande répétée)
Métrique d'évaluation	ratio de SequenceMatcher (difflib)
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	2400 exemples (aiguilles à 2, 4 ou 8)
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 2.5 Pro	Google	93,0 %	20 mai 2025	Auto-déclaré
2	Gemini 1.5 Pro	Google	82,6 %	1 mai 2024	Auto-déclaré
3	Gemini 1.5 Flash	Google	71,9 %	1 mai 2024	Auto-déclaré
4	Gemini 2.0 Flash	Google	69,2 %	21 janvier 2025	Auto-déclaré
5	Gemini 1.5 Flash 8B	Google	54,7 %	15 mars 2024	Auto-déclaré
6	MiMo-V2-Flash	Xiaomi	45,7 %	16 décembre 2025	Auto-déclaré
7	Gemini 2.5 Flash	Google	32,0 %	20 mai 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 69,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MRCR indique qu’un modèle parvient à distinguer des requêtes très similaires, à suivre leur ordre dans une conversation longue et à reproduire la bonne réponse avec une forte proximité textuelle, mesurée par le ratio SequenceMatcher de difflib. Le classement disponible dans la base couvre un nombre limité de modèles, avec une médiane à 69 %, tandis que Gemini 2.5 Pro atteint le meilleur score observé, à 93 %. Cet écart suggère que le benchmark discrimine encore les performances sur la gestion fine du contexte long.

La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement indépendante. MRCR étant synthétique et centré sur l’anglais, sa portée ne couvre pas tous les usages réels du contexte long, notamment les tâches ouvertes, multilingues ou fortement ambiguës hors format contrôlé. Comme pour tout benchmark public, la contamination et une éventuelle saturation future restent des limites à surveiller.

Sources des scores : llm-stats.

MRCR

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23