AA-LCR

AA-LCR, pour Agent Arena Long Context Reasoning benchmark, est un benchmark d’Artificial Analysis publié en 2025. Il évalue la capacité des modèles d’IA à raisonner sur de longs contextes, en demandant de synthétiser des informations dispersées dans plusieurs documents.

AA-LCR, pour Agent Arena Long Context Reasoning benchmark, est un benchmark d’Artificial Analysis publié en 2025. Il évalue la capacité des modèles d’IA à raisonner sur de longs contextes, en demandant de synthétiser des informations dispersées dans plusieurs documents.

Le test repose sur des questions ouvertes en anglais, avec des réponses libres jugées par un LLM. Il sert à comparer la robustesse des modèles lorsque la performance dépend moins d’un rappel local que d’une compréhension étendue, structurée et cohérente d’un corpus volumineux.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkArtificial Analysis
Capacités mesuréesMesure le raisonnement sur de longs contextes en exigeant la synthèse d'informations dispersées dans plusieurs documents (~100k tokens par question).
ModalitéTexte
Type de questionsquestions ouvertes (réponse libre, jugée par un LLM)
Métrique d'évaluationtaux de réussite moyen (pass/fail, équivalence jugée par un LLM)
AccèsPublic
LicenceApache 2.0
Languesanglais
Taille du jeu100 questions (30 jeux de documents, ~2,98 M tokens)
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 14)

#ModèleÉditeurScoreSortieFiabilité
1Mistral Small 4Mistral AI71,2 %16 mars 2026Auto-déclaré
2Kimi K2.5Moonshot AI70,0 %27 janvier 2026Auto-déclaré
3Qwen3.5-397B-A17BQwen68,7 %16 février 2026Auto-déclaré
4Qwen3.6 PlusQwen68,3 %31 mars 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen66,9 %24 février 2026Auto-déclaré
6Qwen3.5-27BQwen66,1 %24 février 2026Auto-déclaré
7Nemotron 3 Ultra (550B A55B)NVIDIA65,4 %4 juin 2026Auto-déclaré
8Qwen3.5-9BQwen63,0 %2 mars 2026Auto-déclaré
9MiniMax M2.1MiniMax62,0 %23 décembre 2025Auto-déclaré
10Qwen3.5-35B-A3BQwen58,5 %24 février 2026Auto-déclaré
11Nemotron 3 Super (120B A12B)NVIDIA58,3 %11 mars 2026Auto-déclaré
12Qwen3.5-4BQwen57,0 %2 mars 2026Auto-déclaré
13Qwen3.5-2BQwen25,6 %2 mars 2026Auto-déclaré
14Qwen3.5-0.8BQwen4,7 %2 mars 2026Auto-déclaré

Classement établi sur 14 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 64,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AA-LCR indique qu’un modèle parvient plus souvent à relier des éléments éloignés dans un long contexte et à produire une réponse jugée équivalente à la référence. La métrique pass/fail donne une lecture simple, mais elle dépend d’un jugement automatisé par LLM, ce qui introduit une part d’interprétation dans l’évaluation. La fiabilité doit aussi être lue avec prudence, les scores disponibles étant majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Le classement montre un peloton relativement resserré autour d’un score médian de 64 %, avec Mistral Small 4 en tête à 71 % parmi les modèles suivis dans la base. Les limites principales tiennent à la portée du benchmark, centré sur l’anglais et le raisonnement long contexte, ainsi qu’aux risques classiques de saturation progressive et de contamination si les jeux de documents deviennent connus des modèles ou des éditeurs.


Sources des scores : llm-stats.