Vision & multimodal

OmniDocBench 1.5

OmniDocBench 1.5 est un benchmark public d’OpenDataLab consacré à la compréhension et au parsing de documents par les grands modèles multimodaux. Il évalue la capacité à transformer des pages PDF complexes en sorties structurées, en couvrant l’OCR, l’extraction d’information, la mise en…

Le benchmark sert à comparer la robustesse des modèles face à des documents variés, multilingues et visuellement hétérogènes. Il met l’accent sur l’évaluation bout-en-bout, avec des métriques adaptées aux textes, aux structures, aux objets de mise en page et aux contenus scientifiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenDataLab
Capacités mesurées	Compréhension et parsing de documents pour LMM : OCR, extraction d'information, mise en page, tables, formules, VQA, ordre de lecture
Modalité	Multimodal
Type de questions	Parsing de documents bout-en-bout (OCR, détection de mise en page, reconnaissance de tables/formules, ordre de lecture)
Métrique d'évaluation	Normalized Edit Distance, BLEU, METEOR, TEDS, COCODet (mAP/mAR), CDM ; v1.5 introduit un appariement hybride (Hybrid Matching)
Accès	Public
Licence	Apache-2.0
Langues	Anglais, chinois simplifié, mixte EN-ZH
Taille du jeu	1 651 pages PDF (v1.5), 10 types de documents, 5 types de mise en page, 5 langues
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiniMax M3	MiniMax	91,6 %	1 juin 2026	Auto-déclaré
2	Qwen3.7-Plus	Qwen	91,4 %	31 mai 2026	Auto-déclaré
3	Qwen3.6 Plus	Qwen	91,2 %	31 mars 2026	Auto-déclaré
4	Qwen3.6-35B-A3B	Qwen	89,9 %	16 avril 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	89,8 %	24 février 2026	Auto-déclaré
6	Qwen3.5-35B-A3B	Qwen	89,3 %	24 février 2026	Auto-déclaré
7	GPT-5.4	OpenAI	89,1 %	5 mars 2026	Auto-déclaré
8	Qwen3.5-27B	Qwen	88,9 %	24 février 2026	Auto-déclaré
9	Kimi K2.5	Moonshot AI	88,8 %	27 janvier 2026	Auto-déclaré
10	GPT-5.5 Instant	OpenAI	87,5 %	5 mai 2026	Auto-déclaré
11	GPT-5.4 mini	OpenAI	87,4 %	17 mars 2026	Auto-déclaré
12	GPT-5.4 nano	OpenAI	75,8 %	17 mars 2026	Auto-déclaré
13	Gemma 4 12B	Google	16,4 %	23 mai 2026	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 89,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un bon résultat sur OmniDocBench 1.5 indique qu’un modèle limite les erreurs de transcription, de structure et d’ordre de lecture lors du parsing de documents. La lecture du classement doit toutefois tenir compte du fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit leur comparabilité par rapport à une évaluation entièrement reproduite et contrôlée. La proximité entre le score médian de l’ensemble, 89 %, et le meilleur résultat observé, MiniMax M3 à 92 %, suggère un classement relativement resserré dans la base, où de faibles écarts peuvent dépendre des choix de métriques ou de protocole. La version 1.5 renforce la rigueur avec Hybrid Matching, mais certaines limites demeurent : risque de saturation si les modèles convergent sur les mêmes types de documents, exposition possible liée à un jeu public, et portée linguistique centrée sur l’anglais, le chinois simplifié et les contenus mixtes EN-ZH. Le classement révèle surtout les modèles les plus solides sur le parsing documentaire complet, plutôt qu’une mesure générale de raisonnement multimodal.

Sources des scores : llm-stats.

OmniDocBench 1.5

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23