OmniDocBench 1.5

OmniDocBench 1.5 est un benchmark public d’OpenDataLab consacré à la compréhension et au parsing de documents par les grands modèles multimodaux. Il évalue la capacité à transformer des pages PDF complexes en sorties structurées, en couvrant l’OCR, l’extraction d’information, la mise en…

OmniDocBench 1.5 est un benchmark public d’OpenDataLab consacré à la compréhension et au parsing de documents par les grands modèles multimodaux. Il évalue la capacité à transformer des pages PDF complexes en sorties structurées, en couvrant l’OCR, l’extraction d’information, la mise en page, les tables, les formules, le VQA et l’ordre de lecture.

Le benchmark sert à comparer la robustesse des modèles face à des documents variés, multilingues et visuellement hétérogènes. Il met l’accent sur l’évaluation bout-en-bout, avec des métriques adaptées aux textes, aux structures, aux objets de mise en page et aux contenus scientifiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenDataLab
Capacités mesuréesCompréhension et parsing de documents pour LMM : OCR, extraction d'information, mise en page, tables, formules, VQA, ordre de lecture
ModalitéMultimodal
Type de questionsParsing de documents bout-en-bout (OCR, détection de mise en page, reconnaissance de tables/formules, ordre de lecture)
Métrique d'évaluationNormalized Edit Distance, BLEU, METEOR, TEDS, COCODet (mAP/mAR), CDM ; v1.5 introduit un appariement hybride (Hybrid Matching)
AccèsPublic
LicenceApache-2.0
LanguesAnglais, chinois simplifié, mixte EN-ZH
Taille du jeu1 651 pages PDF (v1.5), 10 types de documents, 5 types de mise en page, 5 langues
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1MiniMax M3MiniMax91,6 %1 juin 2026Auto-déclaré
2Qwen3.7-PlusQwen91,4 %31 mai 2026Auto-déclaré
3Qwen3.6 PlusQwen91,2 %31 mars 2026Auto-déclaré
4Qwen3.6-35B-A3BQwen89,9 %16 avril 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen89,8 %24 février 2026Auto-déclaré
6Qwen3.5-35B-A3BQwen89,3 %24 février 2026Auto-déclaré
7GPT-5.4OpenAI89,1 %5 mars 2026Auto-déclaré
8Qwen3.5-27BQwen88,9 %24 février 2026Auto-déclaré
9Kimi K2.5Moonshot AI88,8 %27 janvier 2026Auto-déclaré
10GPT-5.5 InstantOpenAI87,5 %5 mai 2026Auto-déclaré
11GPT-5.4 miniOpenAI87,4 %17 mars 2026Auto-déclaré
12GPT-5.4 nanoOpenAI75,8 %17 mars 2026Auto-déclaré
13Gemma 4 12BGoogle16,4 %23 mai 2026Auto-déclaré

Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 89,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un bon résultat sur OmniDocBench 1.5 indique qu’un modèle limite les erreurs de transcription, de structure et d’ordre de lecture lors du parsing de documents. La lecture du classement doit toutefois tenir compte du fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit leur comparabilité par rapport à une évaluation entièrement reproduite et contrôlée. La proximité entre le score médian de l’ensemble, 89 %, et le meilleur résultat observé, MiniMax M3 à 92 %, suggère un classement relativement resserré dans la base, où de faibles écarts peuvent dépendre des choix de métriques ou de protocole. La version 1.5 renforce la rigueur avec Hybrid Matching, mais certaines limites demeurent : risque de saturation si les modèles convergent sur les mêmes types de documents, exposition possible liée à un jeu public, et portée linguistique centrée sur l’anglais, le chinois simplifié et les contenus mixtes EN-ZH. Le classement révèle surtout les modèles les plus solides sur le parsing documentaire complet, plutôt qu’une mesure générale de raisonnement multimodal.


Sources des scores : llm-stats.