MRCR v2

MRCR v2 est un benchmark d’OpenAI consacré au raisonnement en très long contexte. Il prolonge le cadre Multi-Round Coreference Resolution avec une tâche synthétique de conversation multi-tours, conçue pour tester la récupération de plusieurs informations dispersées, la coréférence et la…

MRCR v2 est un benchmark d’OpenAI consacré au raisonnement en très long contexte. Il prolonge le cadre Multi-Round Coreference Resolution avec une tâche synthétique de conversation multi-tours, conçue pour tester la récupération de plusieurs informations dispersées, la coréférence et la désambiguïsation.

Son rôle est d’évaluer la capacité d’un modèle à conserver l’attention sur des éléments précis au fil d’un contexte étendu, plutôt qu’à répondre à partir de connaissances générales. Il sert ainsi de repère pour comparer les performances sur la récupération multi-aiguilles en anglais synthétique.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesRecuperation multi-aiguilles, coreference et desambiguisation en tres long contexte
ModalitéTexte
Type de questionsRecuperation multi-aiguilles en long contexte (conversation synthetique multi-tours)
Métrique d'évaluationScore de correspondance de sequence (ratio) sur la reponse attendue
AccèsPublic
LanguesAnglais (synthetique)
Taille du jeuVariantes 2/4/8 aiguilles jusqu'a 1M tokens
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7-PlusQwen91,7 %31 mai 2026Auto-déclaré
2Gemma 4 31BGoogle66,4 %2 avril 2026Auto-déclaré
3Gemma 4 26B-A4BGoogle44,1 %2 avril 2026Auto-déclaré
4Gemma 4 12BGoogle43,4 %23 mai 2026Auto-déclaré
5DiffusionGemma 26B-A4BGoogle32,0 %10 juin 2026Auto-déclaré
6Gemma 4 E4BGoogle25,4 %2 avril 2026Auto-déclaré
7Gemma 4 E2BGoogle19,1 %2 avril 2026Auto-déclaré
8Gemini 2.5 Flash-LiteGoogle16,6 %17 juin 2025Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 37,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MRCR v2 indique qu’un modèle retrouve correctement plusieurs éléments attendus dans un très long contexte, tout en résolvant les références ambiguës qui apparaissent au fil d’une conversation synthétique. La métrique repose sur un score de correspondance de séquence avec la réponse attendue, ce qui valorise la précision textuelle autant que la bonne identification des aiguilles. Dans la base considérée, l’écart entre le score médian de 38 % et le meilleur résultat, Qwen3.7-Plus à 92 %, suggère une forte dispersion des capacités sur ce type de tâche. L’interprétation reste toutefois prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Les principales limites tiennent à la portée du test, centré sur de l’anglais synthétique, au risque de contamination lié à un accès public, et à une possible saturation si davantage de modèles atteignent des scores très élevés.


Sources des scores : llm-stats.