Contexte long

LongBench v2

LongBench v2 est un benchmark conçu pour évaluer la capacité des grands modèles de langage à traiter des problèmes en contexte très long. Créé par THUDM (Tsinghua University) et al., il cible des situations réalistes où la simple récupération d’information ne suffit pas toujours.

Le benchmark mesure la compréhension approfondie et le raisonnement sur des tâches couvrant la QA mono- et multi-document, l’apprentissage en contexte, l’historique de dialogue, le code et les données structurées. Il sert ainsi de repère pour comparer la robustesse des modèles face à des entrées longues et hétérogènes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	THUDM (Tsinghua University) et al.
Capacités mesurées	généraliste, contexte long, raisonnement, sortie structurée
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	503 questions
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 15)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-397B-A17B	Qwen	63,2 %	16 février 2026	Auto-déclaré
2	Qwen3.6 Plus	Qwen	62,0 %	31 mars 2026	Auto-déclaré
3	Nemotron 3 Ultra (550B A55B)	NVIDIA	61,9 %	4 juin 2026	Auto-déclaré
4	Kimi K2.5	Moonshot AI	61,0 %	27 janvier 2026	Auto-déclaré
5	MAI-Thinking-1	Microsoft	61,0 %	2 juin 2026	Auto-déclaré
6	MiniMax M1	MiniMax	61,0 %	17 juin 2025	Auto-déclaré
7	MiMo-V2-Flash	Xiaomi	60,6 %	16 décembre 2025	Auto-déclaré
8	Qwen3.5-27B	Qwen	60,6 %	24 février 2026	Auto-déclaré
9	Qwen3.5-122B-A10B	Qwen	60,2 %	24 février 2026	Auto-déclaré
10	Qwen3.5-35B-A3B	Qwen	59,0 %	24 février 2026	Auto-déclaré
11	Qwen3.5-9B	Qwen	55,2 %	2 mars 2026	Auto-déclaré
12	Qwen3.5-4B	Qwen	50,0 %	2 mars 2026	Auto-déclaré
13	DeepSeek-V3	DeepSeek	48,7 %	24 mars 2025	Auto-déclaré
14	Qwen3.5-2B	Qwen	38,7 %	2 mars 2026	Auto-déclaré
15	Qwen3.5-0.8B	Qwen	26,1 %	2 mars 2026	Auto-déclaré

Classement établi sur 15 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 60,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LongBench v2 indique qu’un modèle parvient à exploiter efficacement un contexte étendu pour choisir la bonne réponse dans un format QCM, avec des exigences de compréhension et de raisonnement sur plusieurs types de tâches. Dans la base, le classement apparaît resserré: le meilleur modèle, Qwen3.5-397B-A17B (Qwen), atteint 63%, tandis que la médiane des 16 modèles évalués est de 61%. Cet écart limité suggère une différenciation modérée entre les systèmes présents, sans signal de domination nette.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite dans un cadre contrôlé. Le benchmark étant public, le risque de contamination ne peut pas être écarté. Sa portée est aussi encadrée par le format QCM et par l’anglais, ce qui ne couvre pas toutes les formes de génération, de multilinguisme ou d’usage en contexte long.

Sources des scores : llm-stats.

LongBench v2

Carte d'identité

Classement des modèles (top 15)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23