MRCR

MRCR est un benchmark synthétique conçu par OpenAI pour évaluer le raisonnement en contexte long dans des conversations étendues. Il demande aux modèles de retrouver et de reproduire une sortie précise associée à une occurrence donnée d’une requête répétée, dans un environnement où…

MRCR est un benchmark synthétique conçu par OpenAI pour évaluer le raisonnement en contexte long dans des conversations étendues. Il demande aux modèles de retrouver et de reproduire une sortie précise associée à une occurrence donnée d’une requête répétée, dans un environnement où plusieurs éléments se ressemblent fortement.

Le test cible la compréhension en contexte long, la résolution de coréférence multi-tours et la désambiguïsation entre demandes quasi identiques. Son intérêt est de mesurer la capacité d’un modèle à maintenir l’attention sur l’ordre, les références et les détails au fil d’un contexte prolongé.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesCompréhension en contexte long, résolution de coréférence multi-tours, désambiguïsation entre éléments très similaires
ModalitéTexte
Type de questionsrécupération/reproduction en contexte long (retrouver la i-ème occurrence d'une demande répétée)
Métrique d'évaluationratio de SequenceMatcher (difflib)
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeu2400 exemples (aiguilles à 2, 4 ou 8)
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 2.5 ProGoogle93,0 %20 mai 2025Auto-déclaré
2Gemini 1.5 ProGoogle82,6 %1 mai 2024Auto-déclaré
3Gemini 1.5 FlashGoogle71,9 %1 mai 2024Auto-déclaré
4Gemini 2.0 FlashGoogle69,2 %21 janvier 2025Auto-déclaré
5Gemini 1.5 Flash 8BGoogle54,7 %15 mars 2024Auto-déclaré
6MiMo-V2-FlashXiaomi45,7 %16 décembre 2025Auto-déclaré
7Gemini 2.5 FlashGoogle32,0 %20 mai 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 69,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MRCR indique qu’un modèle parvient à distinguer des requêtes très similaires, à suivre leur ordre dans une conversation longue et à reproduire la bonne réponse avec une forte proximité textuelle, mesurée par le ratio SequenceMatcher de difflib. Le classement disponible dans la base couvre un nombre limité de modèles, avec une médiane à 69 %, tandis que Gemini 2.5 Pro atteint le meilleur score observé, à 93 %. Cet écart suggère que le benchmark discrimine encore les performances sur la gestion fine du contexte long.

La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement indépendante. MRCR étant synthétique et centré sur l’anglais, sa portée ne couvre pas tous les usages réels du contexte long, notamment les tâches ouvertes, multilingues ou fortement ambiguës hors format contrôlé. Comme pour tout benchmark public, la contamination et une éventuelle saturation future restent des limites à surveiller.


Sources des scores : llm-stats.