Contexte long

AA-LCR

AA-LCR, pour Agent Arena Long Context Reasoning benchmark, est un benchmark d’Artificial Analysis publié en 2025. Il évalue la capacité des modèles d’IA à raisonner sur de longs contextes, en demandant de synthétiser des informations dispersées dans plusieurs documents.

Le test repose sur des questions ouvertes en anglais, avec des réponses libres jugées par un LLM. Il sert à comparer la robustesse des modèles lorsque la performance dépend moins d’un rappel local que d’une compréhension étendue, structurée et cohérente d’un corpus volumineux.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Artificial Analysis
Capacités mesurées	Mesure le raisonnement sur de longs contextes en exigeant la synthèse d'informations dispersées dans plusieurs documents (~100k tokens par question).
Modalité	Texte
Type de questions	questions ouvertes (réponse libre, jugée par un LLM)
Métrique d'évaluation	taux de réussite moyen (pass/fail, équivalence jugée par un LLM)
Accès	Public
Licence	Apache 2.0
Langues	anglais
Taille du jeu	100 questions (30 jeux de documents, ~2,98 M tokens)
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 14)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Mistral Small 4	Mistral AI	71,2 %	16 mars 2026	Auto-déclaré
2	Kimi K2.5	Moonshot AI	70,0 %	27 janvier 2026	Auto-déclaré
3	Qwen3.5-397B-A17B	Qwen	68,7 %	16 février 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	68,3 %	31 mars 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	66,9 %	24 février 2026	Auto-déclaré
6	Qwen3.5-27B	Qwen	66,1 %	24 février 2026	Auto-déclaré
7	Nemotron 3 Ultra (550B A55B)	NVIDIA	65,4 %	4 juin 2026	Auto-déclaré
8	Qwen3.5-9B	Qwen	63,0 %	2 mars 2026	Auto-déclaré
9	MiniMax M2.1	MiniMax	62,0 %	23 décembre 2025	Auto-déclaré
10	Qwen3.5-35B-A3B	Qwen	58,5 %	24 février 2026	Auto-déclaré
11	Nemotron 3 Super (120B A12B)	NVIDIA	58,3 %	11 mars 2026	Auto-déclaré
12	Qwen3.5-4B	Qwen	57,0 %	2 mars 2026	Auto-déclaré
13	Qwen3.5-2B	Qwen	25,6 %	2 mars 2026	Auto-déclaré
14	Qwen3.5-0.8B	Qwen	4,7 %	2 mars 2026	Auto-déclaré

Classement établi sur 14 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 64,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AA-LCR indique qu’un modèle parvient plus souvent à relier des éléments éloignés dans un long contexte et à produire une réponse jugée équivalente à la référence. La métrique pass/fail donne une lecture simple, mais elle dépend d’un jugement automatisé par LLM, ce qui introduit une part d’interprétation dans l’évaluation. La fiabilité doit aussi être lue avec prudence, les scores disponibles étant majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Le classement montre un peloton relativement resserré autour d’un score médian de 64 %, avec Mistral Small 4 en tête à 71 % parmi les modèles suivis dans la base. Les limites principales tiennent à la portée du benchmark, centré sur l’anglais et le raisonnement long contexte, ainsi qu’aux risques classiques de saturation progressive et de contamination si les jeux de documents deviennent connus des modèles ou des éditeurs.

Sources des scores : llm-stats.

AA-LCR

Carte d'identité

Classement des modèles (top 14)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench