OpenAI-MRCR: 2 needle 1M
OpenAI-MRCR: 2 needle 1M est un benchmark publié par OpenAI pour évaluer les modèles de langage en long contexte. Il cible une tâche précise : retrouver et restituer une instance donnée parmi plusieurs contenus très similaires, cachés dans une longue conversation synthétique.
OpenAI-MRCR: 2 needle 1M est un benchmark publié par OpenAI pour évaluer les modèles de langage en long contexte. Il cible une tâche précise : retrouver et restituer une instance donnée parmi plusieurs contenus très similaires, cachés dans une longue conversation synthétique.
Le test met l’accent sur la résolution de coréférence multi-tours, l’ordre des échanges et les différences fines entre réponses proches. Il sert à mesurer la capacité d’un modèle à exploiter un contexte très étendu sans confondre des éléments presque identiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Capacité d'un LLM en long contexte à distinguer plusieurs 'aiguilles' similaires cachées dans une longue conversation et à restituer une instance précise demandée. |
| Modalité | Texte |
| Type de questions | Long contexte / résolution de coréférence multi-tours (multi-round co-reference resolution) |
| Métrique d'évaluation | Ratio SequenceMatcher (difflib) avec préfixe de hash requis |
| Accès | Public |
| Licence | MIT |
| Langues | Anglais |
| Taille du jeu | 100 échantillons par bin sur 8 bins de tokens jusqu'à ~1 048 576 tokens ; 438 entités, 10 formats d'écriture |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiniMax M1 | MiniMax | 58,6 % | 17 juin 2025 | Auto-déclaré |
| 2 | GPT-4.1 | OpenAI | 46,3 % | 14 avril 2025 | Auto-déclaré |
| 3 | GPT-4.1 mini | OpenAI | 33,3 % | 14 avril 2025 | Auto-déclaré |
| 4 | GPT-4.1 nano | OpenAI | 12,0 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 39,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OpenAI-MRCR: 2 needle 1M indique qu’un modèle parvient mieux à identifier la bonne « aiguille » dans un contexte long, puis à reproduire précisément le contenu demandé. La métrique repose sur un ratio SequenceMatcher avec préfixe de hash requis, ce qui valorise à la fois la similarité textuelle et le respect d’une contrainte de vérification. La comparaison doit toutefois rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement indépendante et reproductible.
Le classement suggère une difficulté réelle du test : avec quatre modèles évalués, un score médian de 40% et un meilleur score de 59% pour MiniMax M1, aucune saturation n’apparaît dans les résultats observés. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais, les conversations synthétiques et une famille de tâches de rappel précis en long contexte. Il ne mesure donc pas, à lui seul, les capacités générales de raisonnement ou d’usage agentique.
Sources des scores : llm-stats.