OmniDocBench 1.5
OmniDocBench 1.5 est un benchmark public d’OpenDataLab consacré à la compréhension et au parsing de documents par les grands modèles multimodaux. Il évalue la capacité à transformer des pages PDF complexes en sorties structurées, en couvrant l’OCR, l’extraction d’information, la mise en…
OmniDocBench 1.5 est un benchmark public d’OpenDataLab consacré à la compréhension et au parsing de documents par les grands modèles multimodaux. Il évalue la capacité à transformer des pages PDF complexes en sorties structurées, en couvrant l’OCR, l’extraction d’information, la mise en page, les tables, les formules, le VQA et l’ordre de lecture.
Le benchmark sert à comparer la robustesse des modèles face à des documents variés, multilingues et visuellement hétérogènes. Il met l’accent sur l’évaluation bout-en-bout, avec des métriques adaptées aux textes, aux structures, aux objets de mise en page et aux contenus scientifiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenDataLab |
| Capacités mesurées | Compréhension et parsing de documents pour LMM : OCR, extraction d'information, mise en page, tables, formules, VQA, ordre de lecture |
| Modalité | Multimodal |
| Type de questions | Parsing de documents bout-en-bout (OCR, détection de mise en page, reconnaissance de tables/formules, ordre de lecture) |
| Métrique d'évaluation | Normalized Edit Distance, BLEU, METEOR, TEDS, COCODet (mAP/mAR), CDM ; v1.5 introduit un appariement hybride (Hybrid Matching) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | Anglais, chinois simplifié, mixte EN-ZH |
| Taille du jeu | 1 651 pages PDF (v1.5), 10 types de documents, 5 types de mise en page, 5 langues |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiniMax M3 | MiniMax | 91,6 % | 1 juin 2026 | Auto-déclaré |
| 2 | Qwen3.7-Plus | Qwen | 91,4 % | 31 mai 2026 | Auto-déclaré |
| 3 | Qwen3.6 Plus | Qwen | 91,2 % | 31 mars 2026 | Auto-déclaré |
| 4 | Qwen3.6-35B-A3B | Qwen | 89,9 % | 16 avril 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 89,8 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-35B-A3B | Qwen | 89,3 % | 24 février 2026 | Auto-déclaré |
| 7 | GPT-5.4 | OpenAI | 89,1 % | 5 mars 2026 | Auto-déclaré |
| 8 | Qwen3.5-27B | Qwen | 88,9 % | 24 février 2026 | Auto-déclaré |
| 9 | Kimi K2.5 | Moonshot AI | 88,8 % | 27 janvier 2026 | Auto-déclaré |
| 10 | GPT-5.5 Instant | OpenAI | 87,5 % | 5 mai 2026 | Auto-déclaré |
| 11 | GPT-5.4 mini | OpenAI | 87,4 % | 17 mars 2026 | Auto-déclaré |
| 12 | GPT-5.4 nano | OpenAI | 75,8 % | 17 mars 2026 | Auto-déclaré |
| 13 | Gemma 4 12B | 16,4 % | 23 mai 2026 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 89,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un bon résultat sur OmniDocBench 1.5 indique qu’un modèle limite les erreurs de transcription, de structure et d’ordre de lecture lors du parsing de documents. La lecture du classement doit toutefois tenir compte du fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit leur comparabilité par rapport à une évaluation entièrement reproduite et contrôlée. La proximité entre le score médian de l’ensemble, 89 %, et le meilleur résultat observé, MiniMax M3 à 92 %, suggère un classement relativement resserré dans la base, où de faibles écarts peuvent dépendre des choix de métriques ou de protocole. La version 1.5 renforce la rigueur avec Hybrid Matching, mais certaines limites demeurent : risque de saturation si les modèles convergent sur les mêmes types de documents, exposition possible liée à un jeu public, et portée linguistique centrée sur l’anglais, le chinois simplifié et les contenus mixtes EN-ZH. Le classement révèle surtout les modèles les plus solides sur le parsing documentaire complet, plutôt qu’une mesure générale de raisonnement multimodal.
Sources des scores : llm-stats.