LongBench v2

LongBench v2 est un benchmark conçu pour évaluer la capacité des grands modèles de langage à traiter des problèmes en contexte très long. Créé par THUDM (Tsinghua University) et al., il cible des situations réalistes où la simple récupération d’information ne suffit pas toujours.

LongBench v2 est un benchmark conçu pour évaluer la capacité des grands modèles de langage à traiter des problèmes en contexte très long. Créé par THUDM (Tsinghua University) et al., il cible des situations réalistes où la simple récupération d’information ne suffit pas toujours.

Le benchmark mesure la compréhension approfondie et le raisonnement sur des tâches couvrant la QA mono- et multi-document, l’apprentissage en contexte, l’historique de dialogue, le code et les données structurées. Il sert ainsi de repère pour comparer la robustesse des modèles face à des entrées longues et hétérogènes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkTHUDM (Tsinghua University) et al.
Capacités mesuréesgénéraliste, contexte long, raisonnement, sortie structurée
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu503 questions
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 15)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-397B-A17BQwen63,2 %16 février 2026Auto-déclaré
2Qwen3.6 PlusQwen62,0 %31 mars 2026Auto-déclaré
3Nemotron 3 Ultra (550B A55B)NVIDIA61,9 %4 juin 2026Auto-déclaré
4Kimi K2.5Moonshot AI61,0 %27 janvier 2026Auto-déclaré
5MAI-Thinking-1Microsoft61,0 %2 juin 2026Auto-déclaré
6MiniMax M1MiniMax61,0 %17 juin 2025Auto-déclaré
7MiMo-V2-FlashXiaomi60,6 %16 décembre 2025Auto-déclaré
8Qwen3.5-27BQwen60,6 %24 février 2026Auto-déclaré
9Qwen3.5-122B-A10BQwen60,2 %24 février 2026Auto-déclaré
10Qwen3.5-35B-A3BQwen59,0 %24 février 2026Auto-déclaré
11Qwen3.5-9BQwen55,2 %2 mars 2026Auto-déclaré
12Qwen3.5-4BQwen50,0 %2 mars 2026Auto-déclaré
13DeepSeek-V3DeepSeek48,7 %24 mars 2025Auto-déclaré
14Qwen3.5-2BQwen38,7 %2 mars 2026Auto-déclaré
15Qwen3.5-0.8BQwen26,1 %2 mars 2026Auto-déclaré

Classement établi sur 15 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 60,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LongBench v2 indique qu’un modèle parvient à exploiter efficacement un contexte étendu pour choisir la bonne réponse dans un format QCM, avec des exigences de compréhension et de raisonnement sur plusieurs types de tâches. Dans la base, le classement apparaît resserré: le meilleur modèle, Qwen3.5-397B-A17B (Qwen), atteint 63%, tandis que la médiane des 16 modèles évalués est de 61%. Cet écart limité suggère une différenciation modérée entre les systèmes présents, sans signal de domination nette.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite dans un cadre contrôlé. Le benchmark étant public, le risque de contamination ne peut pas être écarté. Sa portée est aussi encadrée par le format QCM et par l’anglais, ce qui ne couvre pas toutes les formes de génération, de multilinguisme ou d’usage en contexte long.


Sources des scores : llm-stats.