Contexte long

MRCR v2 (8-needle)

MRCR v2 (8-needle) est une variante du benchmark Multi-Round Coreference Resolution créée par OpenAI. Il évalue la capacité d’un modèle à retrouver, dans un très long contexte, la bonne occurrence d’une demande dupliquée parmi des distracteurs.

Le test cible le suivi simultané de plusieurs informations identiques, appelées needles, et le raisonnement de coréférence sur des conversations étendues. Il sert à distinguer les modèles capables de maintenir une représentation fiable du contexte lorsque la longueur atteint des échelles très élevées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Suivi et raisonnement simultanes sur plusieurs 'aiguilles' identiques dans un tres long contexte (jusqu'a 1M tokens)
Modalité	Texte
Type de questions	Recuperation/coreference long-contexte : retrouver la i-eme occurrence d'une demande dupliquee parmi des distracteurs
Métrique d'évaluation	Ratio de correspondance de sequence (similarite type SequenceMatcher)
Accès	Public
Langues	anglais
Taille du jeu	Variante 8-aiguilles ; 438 entites, 10 formats d'ecriture, 100 echantillons par tranche, 8 tranches de tokens jusqu'a 1M
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.6	Anthropic	76,0 %	7 avril 2026	Auto-déclaré
2	GPT-5.5	OpenAI	74,0 %	23 avril 2026	Auto-déclaré
3	Gemini 3.1 Flash-Lite	Google	60,1 %	3 mars 2026	Auto-déclaré
4	GPT-5.4 mini	OpenAI	33,6 %	17 mars 2026	Auto-déclaré
5	GPT-5.4 nano	OpenAI	33,1 %	17 mars 2026	Auto-déclaré
6	Gemini 3.5 Flash	Google	26,6 %	19 mai 2026	Auto-déclaré
7	Gemini 3 Pro	Google	26,3 %	18 novembre 2025	Auto-déclaré
8	Gemini 3.1 Pro Preview	Google	26,3 %	19 février 2026	Auto-déclaré
9	Gemini 3 Flash	Google	22,1 %	17 décembre 2025	Auto-déclaré
10	Gemini 2.5 Pro Preview 06-05	Google	16,4 %	5 juin 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 29,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MRCR v2 (8-needle) indique qu’un modèle parvient à identifier précisément la ième occurrence pertinente d’une demande dupliquée, même lorsque plusieurs éléments similaires se trouvent dans un contexte très long. La métrique, fondée sur un ratio de correspondance de séquence de type SequenceMatcher, mesure la proximité entre la réponse produite et la séquence attendue. L’évaluation est publique et structurée, mais les scores présents dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui invite à interpréter les écarts avec prudence. La portée reste spécialisée : le benchmark mesure surtout la récupération et la coréférence long-contexte en anglais, sans couvrir l’ensemble du raisonnement ou des usages conversationnels. Son caractère public peut aussi exposer à un risque de contamination. Avec un score médian de 30 % et un meilleur résultat à 76 % pour Claude Opus 4.6, le classement suggère une tâche encore loin d’être saturée et discriminante pour les modèles avancés.

Sources des scores : llm-stats.

MRCR v2 (8-needle)

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23