Contexte long

OpenAI-MRCR: 2 needle 1M

OpenAI-MRCR: 2 needle 1M est un benchmark publié par OpenAI pour évaluer les modèles de langage en long contexte. Il cible une tâche précise : retrouver et restituer une instance donnée parmi plusieurs contenus très similaires, cachés dans une longue conversation synthétique.

Le test met l’accent sur la résolution de coréférence multi-tours, l’ordre des échanges et les différences fines entre réponses proches. Il sert à mesurer la capacité d’un modèle à exploiter un contexte très étendu sans confondre des éléments presque identiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Capacité d'un LLM en long contexte à distinguer plusieurs 'aiguilles' similaires cachées dans une longue conversation et à restituer une instance précise demandée.
Modalité	Texte
Type de questions	Long contexte / résolution de coréférence multi-tours (multi-round co-reference resolution)
Métrique d'évaluation	Ratio SequenceMatcher (difflib) avec préfixe de hash requis
Accès	Public
Licence	MIT
Langues	Anglais
Taille du jeu	100 échantillons par bin sur 8 bins de tokens jusqu'à ~1 048 576 tokens ; 438 entités, 10 formats d'écriture
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiniMax M1	MiniMax	58,6 %	17 juin 2025	Auto-déclaré
2	GPT-4.1	OpenAI	46,3 %	14 avril 2025	Auto-déclaré
3	GPT-4.1 mini	OpenAI	33,3 %	14 avril 2025	Auto-déclaré
4	GPT-4.1 nano	OpenAI	12,0 %	14 avril 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 39,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OpenAI-MRCR: 2 needle 1M indique qu’un modèle parvient mieux à identifier la bonne « aiguille » dans un contexte long, puis à reproduire précisément le contenu demandé. La métrique repose sur un ratio SequenceMatcher avec préfixe de hash requis, ce qui valorise à la fois la similarité textuelle et le respect d’une contrainte de vérification. La comparaison doit toutefois rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement indépendante et reproductible.

Le classement suggère une difficulté réelle du test : avec quatre modèles évalués, un score médian de 40% et un meilleur score de 59% pour MiniMax M1, aucune saturation n’apparaît dans les résultats observés. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais, les conversations synthétiques et une famille de tâches de rappel précis en long contexte. Il ne mesure donc pas, à lui seul, les capacités générales de raisonnement ou d’usage agentique.

Sources des scores : llm-stats.

OpenAI-MRCR: 2 needle 1M

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23