Contexte long

OpenAI-MRCR: 2 needle 128k

OpenAI-MRCR: 2 needle 128k est un benchmark conçu par OpenAI pour évaluer la capacité des modèles à comprendre un très long contexte conversationnel. Il s’inscrit dans la famille des tests de récupération ciblée, mais ajoute une difficulté de résolution de coréférence entre plusieurs…

Son intérêt est de mesurer autre chose qu’une simple recherche de motif. Le modèle doit identifier l’occurrence demandée parmi des éléments répétés, maintenir le fil de la conversation et produire une réponse vérifiable, ce qui en fait un indicateur utile pour les usages à long contexte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Compréhension en contexte long, distinction entre plusieurs "aiguilles" identiques cachées dans une conversation synthétique multi-tours
Modalité	Texte
Type de questions	récupération en contexte long / résolution de coréférence multi-tours
Métrique d'évaluation	ratio SequenceMatcher (difflib), réponse préfixée par un hash
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	2400 instances au total (configuration 2 aiguilles / contexte 128k)
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5	OpenAI	95,2 %	7 août 2025	Auto-déclaré
2	MiniMax M1	MiniMax	76,1 %	17 juin 2025	Auto-déclaré
3	GPT-4.1	OpenAI	57,2 %	14 avril 2025	Auto-déclaré
4	GPT-4.1 mini	OpenAI	47,2 %	14 avril 2025	Auto-déclaré
5	GPT-5.4	OpenAI	38,5 %	5 mars 2026	Auto-déclaré
6	GPT-4.1 nano	OpenAI	36,6 %	14 avril 2025	Auto-déclaré
7	GPT-4o	OpenAI	31,9 %	27 mars 2025	Auto-déclaré
8	o3-mini	OpenAI	18,7 %	30 janvier 2025	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 42,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OpenAI-MRCR: 2 needle 128k indique une forte aptitude à retrouver la bonne instance d’une requête répétée dans un contexte très long, tout en distinguant les références proches au fil de plusieurs tours. La notation repose sur un ratio SequenceMatcher de difflib, avec une réponse préfixée par un hash, ce qui privilégie une correspondance textuelle précise plutôt qu’une appréciation ouverte. Dans la base considérée, huit modèles sont évalués, avec une médiane à 43% et un meilleur résultat de 95% pour GPT-5 (OpenAI), ce qui suggère un écart marqué entre les systèmes capables de gérer finement le contexte long et les autres.

La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs. Le caractère public du benchmark peut aussi accroître le risque de contamination, surtout pour des modèles entraînés ou ajustés après sa publication. Sa portée demeure ciblée : il mesure la récupération et la désambiguïsation en anglais dans une conversation synthétique, sans couvrir toute la compréhension longue en conditions réelles. Une saturation future est possible si les meilleurs modèles convergent vers des scores très élevés.

Sources des scores : llm-stats.

OpenAI-MRCR: 2 needle 128k

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23