MRCR v2 (8-needle)
MRCR v2 (8-needle) est une variante du benchmark Multi-Round Coreference Resolution créée par OpenAI. Il évalue la capacité d’un modèle à retrouver, dans un très long contexte, la bonne occurrence d’une demande dupliquée parmi des distracteurs.
MRCR v2 (8-needle) est une variante du benchmark Multi-Round Coreference Resolution créée par OpenAI. Il évalue la capacité d’un modèle à retrouver, dans un très long contexte, la bonne occurrence d’une demande dupliquée parmi des distracteurs.
Le test cible le suivi simultané de plusieurs informations identiques, appelées needles, et le raisonnement de coréférence sur des conversations étendues. Il sert à distinguer les modèles capables de maintenir une représentation fiable du contexte lorsque la longueur atteint des échelles très élevées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Suivi et raisonnement simultanes sur plusieurs 'aiguilles' identiques dans un tres long contexte (jusqu'a 1M tokens) |
| Modalité | Texte |
| Type de questions | Recuperation/coreference long-contexte : retrouver la i-eme occurrence d'une demande dupliquee parmi des distracteurs |
| Métrique d'évaluation | Ratio de correspondance de sequence (similarite type SequenceMatcher) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | Variante 8-aiguilles ; 438 entites, 10 formats d'ecriture, 100 echantillons par tranche, 8 tranches de tokens jusqu'a 1M |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | Anthropic | 76,0 % | 7 avril 2026 | Auto-déclaré |
| 2 | GPT-5.5 | OpenAI | 74,0 % | 23 avril 2026 | Auto-déclaré |
| 3 | Gemini 3.1 Flash-Lite | 60,1 % | 3 mars 2026 | Auto-déclaré | |
| 4 | GPT-5.4 mini | OpenAI | 33,6 % | 17 mars 2026 | Auto-déclaré |
| 5 | GPT-5.4 nano | OpenAI | 33,1 % | 17 mars 2026 | Auto-déclaré |
| 6 | Gemini 3.5 Flash | 26,6 % | 19 mai 2026 | Auto-déclaré | |
| 7 | Gemini 3 Pro | 26,3 % | 18 novembre 2025 | Auto-déclaré | |
| 8 | Gemini 3.1 Pro Preview | 26,3 % | 19 février 2026 | Auto-déclaré | |
| 9 | Gemini 3 Flash | 22,1 % | 17 décembre 2025 | Auto-déclaré | |
| 10 | Gemini 2.5 Pro Preview 06-05 | 16,4 % | 5 juin 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 29,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MRCR v2 (8-needle) indique qu’un modèle parvient à identifier précisément la ième occurrence pertinente d’une demande dupliquée, même lorsque plusieurs éléments similaires se trouvent dans un contexte très long. La métrique, fondée sur un ratio de correspondance de séquence de type SequenceMatcher, mesure la proximité entre la réponse produite et la séquence attendue. L’évaluation est publique et structurée, mais les scores présents dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui invite à interpréter les écarts avec prudence. La portée reste spécialisée : le benchmark mesure surtout la récupération et la coréférence long-contexte en anglais, sans couvrir l’ensemble du raisonnement ou des usages conversationnels. Son caractère public peut aussi exposer à un risque de contamination. Avec un score médian de 30 % et un meilleur résultat à 76 % pour Claude Opus 4.6, le classement suggère une tâche encore loin d’être saturée et discriminante pour les modèles avancés.
Sources des scores : llm-stats.