MMLongBench-Doc
MMLongBench-Doc est un benchmark consacré à la compréhension de documents longs multimodaux par des modèles vision-langage. Créé par THU-KEG et al., il évalue la capacité à traiter des PDF étendus combinant texte, mise en page, tableaux, figures et informations dispersées sur de…
MMLongBench-Doc est un benchmark consacré à la compréhension de documents longs multimodaux par des modèles vision-langage. Créé par THU-KEG et al., il évalue la capacité à traiter des PDF étendus combinant texte, mise en page, tableaux, figures et informations dispersées sur de nombreuses pages.
Le test repose sur des questions ouvertes à réponse courte, conçues pour vérifier si un modèle peut extraire, relier et raisonner sur des éléments visuels et textuels au sein d’un même document. Il sert ainsi de repère pour mesurer la robustesse des modèles face à des usages documentaires complexes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | THU-KEG et al. |
| Capacités mesurées | contexte long, multimodal, vision |
| Modalité | Image |
| Type de questions | questions ouvertes à réponse courte sur des documents PDF longs avec contenu visuel |
| Métrique d'évaluation | accuracy, avec évaluation automatisée des réponses par juge LLM |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 1 082 questions sur 135 documents PDF |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 62,0 % | 31 mars 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 60,2 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-35B-A3B | Qwen | 59,5 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 59,0 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Thinking | Qwen | 56,2 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 59,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMLongBench-Doc indique qu’un modèle parvient à maintenir une compréhension cohérente de documents longs, à exploiter plusieurs types d’indices visuels et textuels, et à répondre de façon concise à des questions nécessitant parfois de relier des informations éloignées. L’évaluation repose sur l’accuracy, avec un jugement automatisé des réponses par un LLM, ce qui facilite le passage à l’échelle mais introduit une dépendance à la qualité du juge. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des résultats indicatifs plutôt que comme des mesures entièrement vérifiées de manière indépendante. La portée du benchmark reste centrée sur des documents PDF en anglais, et ne couvre pas nécessairement tous les formats documentaires ou contextes métier. Comme pour tout jeu public, des risques de contamination ou de saturation peuvent exister à mesure que les modèles s’y optimisent. Le classement disponible, limité à cinq modèles, montre un écart réduit entre la médiane et Qwen3.6 Plus, ce qui suggère une hiérarchie encore peu discriminante dans cet échantillon.
Sources des scores : llm-stats.