Contexte long

MRCR v2

MRCR v2 est un benchmark d’OpenAI consacré au raisonnement en très long contexte. Il prolonge le cadre Multi-Round Coreference Resolution avec une tâche synthétique de conversation multi-tours, conçue pour tester la récupération de plusieurs informations dispersées, la coréférence et la…

Son rôle est d’évaluer la capacité d’un modèle à conserver l’attention sur des éléments précis au fil d’un contexte étendu, plutôt qu’à répondre à partir de connaissances générales. Il sert ainsi de repère pour comparer les performances sur la récupération multi-aiguilles en anglais synthétique.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Recuperation multi-aiguilles, coreference et desambiguisation en tres long contexte
Modalité	Texte
Type de questions	Recuperation multi-aiguilles en long contexte (conversation synthetique multi-tours)
Métrique d'évaluation	Score de correspondance de sequence (ratio) sur la reponse attendue
Accès	Public
Langues	Anglais (synthetique)
Taille du jeu	Variantes 2/4/8 aiguilles jusqu'a 1M tokens
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7-Plus	Qwen	91,7 %	31 mai 2026	Auto-déclaré
2	Gemma 4 31B	Google	66,4 %	2 avril 2026	Auto-déclaré
3	Gemma 4 26B-A4B	Google	44,1 %	2 avril 2026	Auto-déclaré
4	Gemma 4 12B	Google	43,4 %	23 mai 2026	Auto-déclaré
5	DiffusionGemma 26B-A4B	Google	32,0 %	10 juin 2026	Auto-déclaré
6	Gemma 4 E4B	Google	25,4 %	2 avril 2026	Auto-déclaré
7	Gemma 4 E2B	Google	19,1 %	2 avril 2026	Auto-déclaré
8	Gemini 2.5 Flash-Lite	Google	16,6 %	17 juin 2025	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 37,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MRCR v2 indique qu’un modèle retrouve correctement plusieurs éléments attendus dans un très long contexte, tout en résolvant les références ambiguës qui apparaissent au fil d’une conversation synthétique. La métrique repose sur un score de correspondance de séquence avec la réponse attendue, ce qui valorise la précision textuelle autant que la bonne identification des aiguilles. Dans la base considérée, l’écart entre le score médian de 38 % et le meilleur résultat, Qwen3.7-Plus à 92 %, suggère une forte dispersion des capacités sur ce type de tâche. L’interprétation reste toutefois prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Les principales limites tiennent à la portée du test, centré sur de l’anglais synthétique, au risque de contamination lié à un accès public, et à une possible saturation si davantage de modèles atteignent des scores très élevés.

Sources des scores : llm-stats.

MRCR v2

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench