Vision & multimodal

MMLongBench-Doc

MMLongBench-Doc est un benchmark consacré à la compréhension de documents longs multimodaux par des modèles vision-langage. Créé par THU-KEG et al., il évalue la capacité à traiter des PDF étendus combinant texte, mise en page, tableaux, figures et informations dispersées sur de…

Le test repose sur des questions ouvertes à réponse courte, conçues pour vérifier si un modèle peut extraire, relier et raisonner sur des éléments visuels et textuels au sein d’un même document. Il sert ainsi de repère pour mesurer la robustesse des modèles face à des usages documentaires complexes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	THU-KEG et al.
Capacités mesurées	contexte long, multimodal, vision
Modalité	Image
Type de questions	questions ouvertes à réponse courte sur des documents PDF longs avec contenu visuel
Métrique d'évaluation	accuracy, avec évaluation automatisée des réponses par juge LLM
Accès	Public
Langues	anglais
Taille du jeu	1 082 questions sur 135 documents PDF
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6 Plus	Qwen	62,0 %	31 mars 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	60,2 %	24 février 2026	Auto-déclaré
3	Qwen3.5-35B-A3B	Qwen	59,5 %	24 février 2026	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	59,0 %	24 février 2026	Auto-déclaré
5	Qwen3 VL 235B A22B Thinking	Qwen	56,2 %	22 septembre 2025	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 59,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLongBench-Doc indique qu’un modèle parvient à maintenir une compréhension cohérente de documents longs, à exploiter plusieurs types d’indices visuels et textuels, et à répondre de façon concise à des questions nécessitant parfois de relier des informations éloignées. L’évaluation repose sur l’accuracy, avec un jugement automatisé des réponses par un LLM, ce qui facilite le passage à l’échelle mais introduit une dépendance à la qualité du juge. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des résultats indicatifs plutôt que comme des mesures entièrement vérifiées de manière indépendante. La portée du benchmark reste centrée sur des documents PDF en anglais, et ne couvre pas nécessairement tous les formats documentaires ou contextes métier. Comme pour tout jeu public, des risques de contamination ou de saturation peuvent exister à mesure que les modèles s’y optimisent. Le classement disponible, limité à cinq modèles, montre un écart réduit entre la médiane et Qwen3.6 Plus, ce qui suggère une hiérarchie encore peu discriminante dans cet échantillon.

Sources des scores : llm-stats.

MMLongBench-Doc

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench