AA-LCR
AA-LCR, pour Agent Arena Long Context Reasoning benchmark, est un benchmark d’Artificial Analysis publié en 2025. Il évalue la capacité des modèles d’IA à raisonner sur de longs contextes, en demandant de synthétiser des informations dispersées dans plusieurs documents.
AA-LCR, pour Agent Arena Long Context Reasoning benchmark, est un benchmark d’Artificial Analysis publié en 2025. Il évalue la capacité des modèles d’IA à raisonner sur de longs contextes, en demandant de synthétiser des informations dispersées dans plusieurs documents.
Le test repose sur des questions ouvertes en anglais, avec des réponses libres jugées par un LLM. Il sert à comparer la robustesse des modèles lorsque la performance dépend moins d’un rappel local que d’une compréhension étendue, structurée et cohérente d’un corpus volumineux.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Artificial Analysis |
| Capacités mesurées | Mesure le raisonnement sur de longs contextes en exigeant la synthèse d'informations dispersées dans plusieurs documents (~100k tokens par question). |
| Modalité | Texte |
| Type de questions | questions ouvertes (réponse libre, jugée par un LLM) |
| Métrique d'évaluation | taux de réussite moyen (pass/fail, équivalence jugée par un LLM) |
| Accès | Public |
| Licence | Apache 2.0 |
| Langues | anglais |
| Taille du jeu | 100 questions (30 jeux de documents, ~2,98 M tokens) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 14)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Mistral Small 4 | Mistral AI | 71,2 % | 16 mars 2026 | Auto-déclaré |
| 2 | Kimi K2.5 | Moonshot AI | 70,0 % | 27 janvier 2026 | Auto-déclaré |
| 3 | Qwen3.5-397B-A17B | Qwen | 68,7 % | 16 février 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 68,3 % | 31 mars 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 66,9 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-27B | Qwen | 66,1 % | 24 février 2026 | Auto-déclaré |
| 7 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 65,4 % | 4 juin 2026 | Auto-déclaré |
| 8 | Qwen3.5-9B | Qwen | 63,0 % | 2 mars 2026 | Auto-déclaré |
| 9 | MiniMax M2.1 | MiniMax | 62,0 % | 23 décembre 2025 | Auto-déclaré |
| 10 | Qwen3.5-35B-A3B | Qwen | 58,5 % | 24 février 2026 | Auto-déclaré |
| 11 | Nemotron 3 Super (120B A12B) | NVIDIA | 58,3 % | 11 mars 2026 | Auto-déclaré |
| 12 | Qwen3.5-4B | Qwen | 57,0 % | 2 mars 2026 | Auto-déclaré |
| 13 | Qwen3.5-2B | Qwen | 25,6 % | 2 mars 2026 | Auto-déclaré |
| 14 | Qwen3.5-0.8B | Qwen | 4,7 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 14 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 64,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AA-LCR indique qu’un modèle parvient plus souvent à relier des éléments éloignés dans un long contexte et à produire une réponse jugée équivalente à la référence. La métrique pass/fail donne une lecture simple, mais elle dépend d’un jugement automatisé par LLM, ce qui introduit une part d’interprétation dans l’évaluation. La fiabilité doit aussi être lue avec prudence, les scores disponibles étant majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Le classement montre un peloton relativement resserré autour d’un score médian de 64 %, avec Mistral Small 4 en tête à 71 % parmi les modèles suivis dans la base. Les limites principales tiennent à la portée du benchmark, centré sur l’anglais et le raisonnement long contexte, ainsi qu’aux risques classiques de saturation progressive et de contamination si les jeux de documents deviennent connus des modèles ou des éditeurs.
Sources des scores : llm-stats.