OpenAI-MRCR: 2 needle 1M

OpenAI-MRCR: 2 needle 1M est un benchmark publié par OpenAI pour évaluer les modèles de langage en long contexte. Il cible une tâche précise : retrouver et restituer une instance donnée parmi plusieurs contenus très similaires, cachés dans une longue conversation synthétique.

OpenAI-MRCR: 2 needle 1M est un benchmark publié par OpenAI pour évaluer les modèles de langage en long contexte. Il cible une tâche précise : retrouver et restituer une instance donnée parmi plusieurs contenus très similaires, cachés dans une longue conversation synthétique.

Le test met l’accent sur la résolution de coréférence multi-tours, l’ordre des échanges et les différences fines entre réponses proches. Il sert à mesurer la capacité d’un modèle à exploiter un contexte très étendu sans confondre des éléments presque identiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesCapacité d'un LLM en long contexte à distinguer plusieurs 'aiguilles' similaires cachées dans une longue conversation et à restituer une instance précise demandée.
ModalitéTexte
Type de questionsLong contexte / résolution de coréférence multi-tours (multi-round co-reference resolution)
Métrique d'évaluationRatio SequenceMatcher (difflib) avec préfixe de hash requis
AccèsPublic
LicenceMIT
LanguesAnglais
Taille du jeu100 échantillons par bin sur 8 bins de tokens jusqu'à ~1 048 576 tokens ; 438 entités, 10 formats d'écriture
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1MiniMax M1MiniMax58,6 %17 juin 2025Auto-déclaré
2GPT-4.1OpenAI46,3 %14 avril 2025Auto-déclaré
3GPT-4.1 miniOpenAI33,3 %14 avril 2025Auto-déclaré
4GPT-4.1 nanoOpenAI12,0 %14 avril 2025Auto-déclaré

Classement établi sur 4 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 39,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OpenAI-MRCR: 2 needle 1M indique qu’un modèle parvient mieux à identifier la bonne « aiguille » dans un contexte long, puis à reproduire précisément le contenu demandé. La métrique repose sur un ratio SequenceMatcher avec préfixe de hash requis, ce qui valorise à la fois la similarité textuelle et le respect d’une contrainte de vérification. La comparaison doit toutefois rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement indépendante et reproductible.

Le classement suggère une difficulté réelle du test : avec quatre modèles évalués, un score médian de 40% et un meilleur score de 59% pour MiniMax M1, aucune saturation n’apparaît dans les résultats observés. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais, les conversations synthétiques et une famille de tâches de rappel précis en long contexte. Il ne mesure donc pas, à lui seul, les capacités générales de raisonnement ou d’usage agentique.


Sources des scores : llm-stats.