MRCR v2
MRCR v2 est un benchmark d’OpenAI consacré au raisonnement en très long contexte. Il prolonge le cadre Multi-Round Coreference Resolution avec une tâche synthétique de conversation multi-tours, conçue pour tester la récupération de plusieurs informations dispersées, la coréférence et la…
MRCR v2 est un benchmark d’OpenAI consacré au raisonnement en très long contexte. Il prolonge le cadre Multi-Round Coreference Resolution avec une tâche synthétique de conversation multi-tours, conçue pour tester la récupération de plusieurs informations dispersées, la coréférence et la désambiguïsation.
Son rôle est d’évaluer la capacité d’un modèle à conserver l’attention sur des éléments précis au fil d’un contexte étendu, plutôt qu’à répondre à partir de connaissances générales. Il sert ainsi de repère pour comparer les performances sur la récupération multi-aiguilles en anglais synthétique.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Recuperation multi-aiguilles, coreference et desambiguisation en tres long contexte |
| Modalité | Texte |
| Type de questions | Recuperation multi-aiguilles en long contexte (conversation synthetique multi-tours) |
| Métrique d'évaluation | Score de correspondance de sequence (ratio) sur la reponse attendue |
| Accès | Public |
| Langues | Anglais (synthetique) |
| Taille du jeu | Variantes 2/4/8 aiguilles jusqu'a 1M tokens |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7-Plus | Qwen | 91,7 % | 31 mai 2026 | Auto-déclaré |
| 2 | Gemma 4 31B | 66,4 % | 2 avril 2026 | Auto-déclaré | |
| 3 | Gemma 4 26B-A4B | 44,1 % | 2 avril 2026 | Auto-déclaré | |
| 4 | Gemma 4 12B | 43,4 % | 23 mai 2026 | Auto-déclaré | |
| 5 | DiffusionGemma 26B-A4B | 32,0 % | 10 juin 2026 | Auto-déclaré | |
| 6 | Gemma 4 E4B | 25,4 % | 2 avril 2026 | Auto-déclaré | |
| 7 | Gemma 4 E2B | 19,1 % | 2 avril 2026 | Auto-déclaré | |
| 8 | Gemini 2.5 Flash-Lite | 16,6 % | 17 juin 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 37,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MRCR v2 indique qu’un modèle retrouve correctement plusieurs éléments attendus dans un très long contexte, tout en résolvant les références ambiguës qui apparaissent au fil d’une conversation synthétique. La métrique repose sur un score de correspondance de séquence avec la réponse attendue, ce qui valorise la précision textuelle autant que la bonne identification des aiguilles. Dans la base considérée, l’écart entre le score médian de 38 % et le meilleur résultat, Qwen3.7-Plus à 92 %, suggère une forte dispersion des capacités sur ce type de tâche. L’interprétation reste toutefois prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Les principales limites tiennent à la portée du test, centré sur de l’anglais synthétique, au risque de contamination lié à un accès public, et à une possible saturation si davantage de modèles atteignent des scores très élevés.
Sources des scores : llm-stats.