MRCR v2 (8-needle)

MRCR v2 (8-needle) est une variante du benchmark Multi-Round Coreference Resolution créée par OpenAI. Il évalue la capacité d’un modèle à retrouver, dans un très long contexte, la bonne occurrence d’une demande dupliquée parmi des distracteurs.

MRCR v2 (8-needle) est une variante du benchmark Multi-Round Coreference Resolution créée par OpenAI. Il évalue la capacité d’un modèle à retrouver, dans un très long contexte, la bonne occurrence d’une demande dupliquée parmi des distracteurs.

Le test cible le suivi simultané de plusieurs informations identiques, appelées needles, et le raisonnement de coréférence sur des conversations étendues. Il sert à distinguer les modèles capables de maintenir une représentation fiable du contexte lorsque la longueur atteint des échelles très élevées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesSuivi et raisonnement simultanes sur plusieurs 'aiguilles' identiques dans un tres long contexte (jusqu'a 1M tokens)
ModalitéTexte
Type de questionsRecuperation/coreference long-contexte : retrouver la i-eme occurrence d'une demande dupliquee parmi des distracteurs
Métrique d'évaluationRatio de correspondance de sequence (similarite type SequenceMatcher)
AccèsPublic
Languesanglais
Taille du jeuVariante 8-aiguilles ; 438 entites, 10 formats d'ecriture, 100 echantillons par tranche, 8 tranches de tokens jusqu'a 1M
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.6Anthropic76,0 %7 avril 2026Auto-déclaré
2GPT-5.5OpenAI74,0 %23 avril 2026Auto-déclaré
3Gemini 3.1 Flash-LiteGoogle60,1 %3 mars 2026Auto-déclaré
4GPT-5.4 miniOpenAI33,6 %17 mars 2026Auto-déclaré
5GPT-5.4 nanoOpenAI33,1 %17 mars 2026Auto-déclaré
6Gemini 3.5 FlashGoogle26,6 %19 mai 2026Auto-déclaré
7Gemini 3 ProGoogle26,3 %18 novembre 2025Auto-déclaré
8Gemini 3.1 Pro PreviewGoogle26,3 %19 février 2026Auto-déclaré
9Gemini 3 FlashGoogle22,1 %17 décembre 2025Auto-déclaré
10Gemini 2.5 Pro Preview 06-05Google16,4 %5 juin 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 29,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MRCR v2 (8-needle) indique qu’un modèle parvient à identifier précisément la ième occurrence pertinente d’une demande dupliquée, même lorsque plusieurs éléments similaires se trouvent dans un contexte très long. La métrique, fondée sur un ratio de correspondance de séquence de type SequenceMatcher, mesure la proximité entre la réponse produite et la séquence attendue. L’évaluation est publique et structurée, mais les scores présents dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui invite à interpréter les écarts avec prudence. La portée reste spécialisée : le benchmark mesure surtout la récupération et la coréférence long-contexte en anglais, sans couvrir l’ensemble du raisonnement ou des usages conversationnels. Son caractère public peut aussi exposer à un risque de contamination. Avec un score médian de 30 % et un meilleur résultat à 76 % pour Claude Opus 4.6, le classement suggère une tâche encore loin d’être saturée et discriminante pour les modèles avancés.


Sources des scores : llm-stats.