LongBench v2
LongBench v2 est un benchmark conçu pour évaluer la capacité des grands modèles de langage à traiter des problèmes en contexte très long. Créé par THUDM (Tsinghua University) et al., il cible des situations réalistes où la simple récupération d’information ne suffit pas toujours.
LongBench v2 est un benchmark conçu pour évaluer la capacité des grands modèles de langage à traiter des problèmes en contexte très long. Créé par THUDM (Tsinghua University) et al., il cible des situations réalistes où la simple récupération d’information ne suffit pas toujours.
Le benchmark mesure la compréhension approfondie et le raisonnement sur des tâches couvrant la QA mono- et multi-document, l’apprentissage en contexte, l’historique de dialogue, le code et les données structurées. Il sert ainsi de repère pour comparer la robustesse des modèles face à des entrées longues et hétérogènes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | THUDM (Tsinghua University) et al. |
| Capacités mesurées | généraliste, contexte long, raisonnement, sortie structurée |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 503 questions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 15)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-397B-A17B | Qwen | 63,2 % | 16 février 2026 | Auto-déclaré |
| 2 | Qwen3.6 Plus | Qwen | 62,0 % | 31 mars 2026 | Auto-déclaré |
| 3 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 61,9 % | 4 juin 2026 | Auto-déclaré |
| 4 | Kimi K2.5 | Moonshot AI | 61,0 % | 27 janvier 2026 | Auto-déclaré |
| 5 | MAI-Thinking-1 | Microsoft | 61,0 % | 2 juin 2026 | Auto-déclaré |
| 6 | MiniMax M1 | MiniMax | 61,0 % | 17 juin 2025 | Auto-déclaré |
| 7 | MiMo-V2-Flash | Xiaomi | 60,6 % | 16 décembre 2025 | Auto-déclaré |
| 8 | Qwen3.5-27B | Qwen | 60,6 % | 24 février 2026 | Auto-déclaré |
| 9 | Qwen3.5-122B-A10B | Qwen | 60,2 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3.5-35B-A3B | Qwen | 59,0 % | 24 février 2026 | Auto-déclaré |
| 11 | Qwen3.5-9B | Qwen | 55,2 % | 2 mars 2026 | Auto-déclaré |
| 12 | Qwen3.5-4B | Qwen | 50,0 % | 2 mars 2026 | Auto-déclaré |
| 13 | DeepSeek-V3 | DeepSeek | 48,7 % | 24 mars 2025 | Auto-déclaré |
| 14 | Qwen3.5-2B | Qwen | 38,7 % | 2 mars 2026 | Auto-déclaré |
| 15 | Qwen3.5-0.8B | Qwen | 26,1 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 15 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 60,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LongBench v2 indique qu’un modèle parvient à exploiter efficacement un contexte étendu pour choisir la bonne réponse dans un format QCM, avec des exigences de compréhension et de raisonnement sur plusieurs types de tâches. Dans la base, le classement apparaît resserré: le meilleur modèle, Qwen3.5-397B-A17B (Qwen), atteint 63%, tandis que la médiane des 16 modèles évalués est de 61%. Cet écart limité suggère une différenciation modérée entre les systèmes présents, sans signal de domination nette.
La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite dans un cadre contrôlé. Le benchmark étant public, le risque de contamination ne peut pas être écarté. Sa portée est aussi encadrée par le format QCM et par l’anglais, ce qui ne couvre pas toutes les formes de génération, de multilinguisme ou d’usage en contexte long.
Sources des scores : llm-stats.