OpenAI-MRCR: 2 needle 128k
OpenAI-MRCR: 2 needle 128k est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à comprendre un très long contexte conversationnel. Il s’inscrit dans la famille des tests de récupération ciblée, mais ajoute une difficulté de résolution de coréférence entre plusieurs…
OpenAI-MRCR: 2 needle 128k est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à comprendre un très long contexte conversationnel. Il s’inscrit dans la famille des tests de récupération ciblée, mais ajoute une difficulté de résolution de coréférence entre plusieurs requêtes similaires, ou « aiguilles », dissimulées dans un échange synthétique multi-tours.
Son intérêt est de mesurer autre chose qu’une simple recherche de motif. Le modèle doit identifier l’occurrence demandée parmi des éléments répétés, maintenir le fil de la conversation et produire une réponse vérifiable, ce qui en fait un indicateur utile pour les usages à long contexte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Compréhension en contexte long, distinction entre plusieurs "aiguilles" identiques cachées dans une conversation synthétique multi-tours |
| Modalité | Texte |
| Type de questions | récupération en contexte long / résolution de coréférence multi-tours |
| Métrique d'évaluation | ratio SequenceMatcher (difflib), réponse préfixée par un hash |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | 2400 instances au total (configuration 2 aiguilles / contexte 128k) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5 | OpenAI | 95,2 % | 7 août 2025 | Auto-déclaré |
| 2 | MiniMax M1 | MiniMax | 76,1 % | 17 juin 2025 | Auto-déclaré |
| 3 | GPT-4.1 | OpenAI | 57,2 % | 14 avril 2025 | Auto-déclaré |
| 4 | GPT-4.1 mini | OpenAI | 47,2 % | 14 avril 2025 | Auto-déclaré |
| 5 | GPT-5.4 | OpenAI | 38,5 % | 5 mars 2026 | Auto-déclaré |
| 6 | GPT-4.1 nano | OpenAI | 36,6 % | 14 avril 2025 | Auto-déclaré |
| 7 | GPT-4o | OpenAI | 31,9 % | 27 mars 2025 | Auto-déclaré |
| 8 | o3-mini | OpenAI | 18,7 % | 30 janvier 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 42,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OpenAI-MRCR: 2 needle 128k indique une forte aptitude à retrouver la bonne instance d’une requête répétée dans un contexte très long, tout en distinguant les références proches au fil de plusieurs tours. La notation repose sur un ratio SequenceMatcher de difflib, avec une réponse préfixée par un hash, ce qui privilégie une correspondance textuelle précise plutôt qu’une appréciation ouverte. Dans la base considérée, huit modèles sont évalués, avec une médiane à 43% et un meilleur résultat de 95% pour GPT-5 (OpenAI), ce qui suggère un écart marqué entre les systèmes capables de gérer finement le contexte long et les autres.
La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs. Le caractère public du benchmark peut aussi accroître le risque de contamination, surtout pour des modèles entraînés ou ajustés après sa publication. Sa portée demeure ciblée : il mesure la récupération et la désambiguïsation en anglais dans une conversation synthétique, sans couvrir toute la compréhension longue en conditions réelles. Une saturation future est possible si les meilleurs modèles convergent vers des scores très élevés.
Sources des scores : llm-stats.