OpenAI-MRCR: 2 needle 128k

OpenAI-MRCR: 2 needle 128k est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à comprendre un très long contexte conversationnel. Il s’inscrit dans la famille des tests de récupération ciblée, mais ajoute une difficulté de résolution de coréférence entre plusieurs…

OpenAI-MRCR: 2 needle 128k est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à comprendre un très long contexte conversationnel. Il s’inscrit dans la famille des tests de récupération ciblée, mais ajoute une difficulté de résolution de coréférence entre plusieurs requêtes similaires, ou « aiguilles », dissimulées dans un échange synthétique multi-tours.

Son intérêt est de mesurer autre chose qu’une simple recherche de motif. Le modèle doit identifier l’occurrence demandée parmi des éléments répétés, maintenir le fil de la conversation et produire une réponse vérifiable, ce qui en fait un indicateur utile pour les usages à long contexte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesCompréhension en contexte long, distinction entre plusieurs "aiguilles" identiques cachées dans une conversation synthétique multi-tours
ModalitéTexte
Type de questionsrécupération en contexte long / résolution de coréférence multi-tours
Métrique d'évaluationratio SequenceMatcher (difflib), réponse préfixée par un hash
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeu2400 instances au total (configuration 2 aiguilles / contexte 128k)
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5OpenAI95,2 %7 août 2025Auto-déclaré
2MiniMax M1MiniMax76,1 %17 juin 2025Auto-déclaré
3GPT-4.1OpenAI57,2 %14 avril 2025Auto-déclaré
4GPT-4.1 miniOpenAI47,2 %14 avril 2025Auto-déclaré
5GPT-5.4OpenAI38,5 %5 mars 2026Auto-déclaré
6GPT-4.1 nanoOpenAI36,6 %14 avril 2025Auto-déclaré
7GPT-4oOpenAI31,9 %27 mars 2025Auto-déclaré
8o3-miniOpenAI18,7 %30 janvier 2025Auto-déclaré

Classement établi sur 8 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 42,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OpenAI-MRCR: 2 needle 128k indique une forte aptitude à retrouver la bonne instance d’une requête répétée dans un contexte très long, tout en distinguant les références proches au fil de plusieurs tours. La notation repose sur un ratio SequenceMatcher de difflib, avec une réponse préfixée par un hash, ce qui privilégie une correspondance textuelle précise plutôt qu’une appréciation ouverte. Dans la base considérée, huit modèles sont évalués, avec une médiane à 43% et un meilleur résultat de 95% pour GPT-5 (OpenAI), ce qui suggère un écart marqué entre les systèmes capables de gérer finement le contexte long et les autres.

La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs. Le caractère public du benchmark peut aussi accroître le risque de contamination, surtout pour des modèles entraînés ou ajustés après sa publication. Sa portée demeure ciblée : il mesure la récupération et la désambiguïsation en anglais dans une conversation synthétique, sans couvrir toute la compréhension longue en conditions réelles. Une saturation future est possible si les meilleurs modèles convergent vers des scores très élevés.


Sources des scores : llm-stats.