MMLongBench-Doc

MMLongBench-Doc est un benchmark consacré à la compréhension de documents longs multimodaux par des modèles vision-langage. Créé par THU-KEG et al., il évalue la capacité à traiter des PDF étendus combinant texte, mise en page, tableaux, figures et informations dispersées sur de…

MMLongBench-Doc est un benchmark consacré à la compréhension de documents longs multimodaux par des modèles vision-langage. Créé par THU-KEG et al., il évalue la capacité à traiter des PDF étendus combinant texte, mise en page, tableaux, figures et informations dispersées sur de nombreuses pages.

Le test repose sur des questions ouvertes à réponse courte, conçues pour vérifier si un modèle peut extraire, relier et raisonner sur des éléments visuels et textuels au sein d’un même document. Il sert ainsi de repère pour mesurer la robustesse des modèles face à des usages documentaires complexes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkTHU-KEG et al.
Capacités mesuréescontexte long, multimodal, vision
ModalitéImage
Type de questionsquestions ouvertes à réponse courte sur des documents PDF longs avec contenu visuel
Métrique d'évaluationaccuracy, avec évaluation automatisée des réponses par juge LLM
AccèsPublic
Languesanglais
Taille du jeu1 082 questions sur 135 documents PDF
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6 PlusQwen62,0 %31 mars 2026Auto-déclaré
2Qwen3.5-27BQwen60,2 %24 février 2026Auto-déclaré
3Qwen3.5-35B-A3BQwen59,5 %24 février 2026Auto-déclaré
4Qwen3.5-122B-A10BQwen59,0 %24 février 2026Auto-déclaré
5Qwen3 VL 235B A22B ThinkingQwen56,2 %22 septembre 2025Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 59,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLongBench-Doc indique qu’un modèle parvient à maintenir une compréhension cohérente de documents longs, à exploiter plusieurs types d’indices visuels et textuels, et à répondre de façon concise à des questions nécessitant parfois de relier des informations éloignées. L’évaluation repose sur l’accuracy, avec un jugement automatisé des réponses par un LLM, ce qui facilite le passage à l’échelle mais introduit une dépendance à la qualité du juge. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des résultats indicatifs plutôt que comme des mesures entièrement vérifiées de manière indépendante. La portée du benchmark reste centrée sur des documents PDF en anglais, et ne couvre pas nécessairement tous les formats documentaires ou contextes métier. Comme pour tout jeu public, des risques de contamination ou de saturation peuvent exister à mesure que les modèles s’y optimisent. Le classement disponible, limité à cinq modèles, montre un écart réduit entre la médiane et Qwen3.6 Plus, ce qui suggère une hiérarchie encore peu discriminante dans cet échantillon.


Sources des scores : llm-stats.