MRCR
MRCR est un benchmark synthétique conçu par OpenAI pour évaluer le raisonnement en contexte long dans des conversations étendues. Il demande aux modèles de retrouver et de reproduire une sortie précise associée à une occurrence donnée d’une requête répétée, dans un environnement où…
MRCR est un benchmark synthétique conçu par OpenAI pour évaluer le raisonnement en contexte long dans des conversations étendues. Il demande aux modèles de retrouver et de reproduire une sortie précise associée à une occurrence donnée d’une requête répétée, dans un environnement où plusieurs éléments se ressemblent fortement.
Le test cible la compréhension en contexte long, la résolution de coréférence multi-tours et la désambiguïsation entre demandes quasi identiques. Son intérêt est de mesurer la capacité d’un modèle à maintenir l’attention sur l’ordre, les références et les détails au fil d’un contexte prolongé.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Compréhension en contexte long, résolution de coréférence multi-tours, désambiguïsation entre éléments très similaires |
| Modalité | Texte |
| Type de questions | récupération/reproduction en contexte long (retrouver la i-ème occurrence d'une demande répétée) |
| Métrique d'évaluation | ratio de SequenceMatcher (difflib) |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | 2400 exemples (aiguilles à 2, 4 ou 8) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 2.5 Pro | 93,0 % | 20 mai 2025 | Auto-déclaré | |
| 2 | Gemini 1.5 Pro | 82,6 % | 1 mai 2024 | Auto-déclaré | |
| 3 | Gemini 1.5 Flash | 71,9 % | 1 mai 2024 | Auto-déclaré | |
| 4 | Gemini 2.0 Flash | 69,2 % | 21 janvier 2025 | Auto-déclaré | |
| 5 | Gemini 1.5 Flash 8B | 54,7 % | 15 mars 2024 | Auto-déclaré | |
| 6 | MiMo-V2-Flash | Xiaomi | 45,7 % | 16 décembre 2025 | Auto-déclaré |
| 7 | Gemini 2.5 Flash | 32,0 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 69,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MRCR indique qu’un modèle parvient à distinguer des requêtes très similaires, à suivre leur ordre dans une conversation longue et à reproduire la bonne réponse avec une forte proximité textuelle, mesurée par le ratio SequenceMatcher de difflib. Le classement disponible dans la base couvre un nombre limité de modèles, avec une médiane à 69 %, tandis que Gemini 2.5 Pro atteint le meilleur score observé, à 93 %. Cet écart suggère que le benchmark discrimine encore les performances sur la gestion fine du contexte long.
La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement indépendante. MRCR étant synthétique et centré sur l’anglais, sa portée ne couvre pas tous les usages réels du contexte long, notamment les tâches ouvertes, multilingues ou fortement ambiguës hors format contrôlé. Comme pour tout benchmark public, la contamination et une éventuelle saturation future restent des limites à surveiller.
Sources des scores : llm-stats.