OCRBench_V2

OCRBench_V2 est un benchmark d’OCR multimodal bilingue conçu par les auteurs d’OCRBench v2, dont Ling Fu, Zhebin Kuang et Yuliang Liu. Il évalue la capacité des grands modèles multimodaux à lire, localiser et exploiter du texte présent dans des images, en anglais et en chinois.

OCRBench_V2 est un benchmark d’OCR multimodal bilingue conçu par les auteurs d’OCRBench v2, dont Ling Fu, Zhebin Kuang et Yuliang Liu. Il évalue la capacité des grands modèles multimodaux à lire, localiser et exploiter du texte présent dans des images, en anglais et en chinois.

Le benchmark couvre des tâches de reconnaissance, spotting, extraction, parsing, calcul, compréhension et raisonnement visuel. Son intérêt est de tester non seulement la transcription du texte, mais aussi son usage dans des questions-réponses visuelles nécessitant localisation et interprétation.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs OCRBench v2 (Ling Fu, Zhebin Kuang, Yuliang Liu et al.)
Capacités mesuréesOCR multimodal bilingue : reconnaissance de texte, referencement, spotting, extraction, parsing, calcul, comprehension et raisonnement sur 31 scenarios.
ModalitéMultimodal
Type de questionsQuestions-reponses visuelles (QA), incluant localisation/spotting de texte
Métrique d'évaluationScore agrege sur 100 (metriques par tache)
AccèsPublic
LicenceCC BY-SA 4.0 (page projet)
LanguesAnglais, chinois (bilingue)
Taille du jeu10 000 paires QA verifiees par des humains (test public) + 1 500 images (test prive)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7-PlusQwen67,1 %31 mai 2026Auto-déclaré
2Nova 2 ProAmazon64,5 %2 décembre 2025Auto-déclaré
3Seed 2.1 Probytedance63,2 %24 juin 2026Auto-déclaré
4Seed 2.1 Turbobytedance62,8 %24 juin 2026Auto-déclaré
5Nova 2 OmniAmazon58,2 %2 décembre 2025Auto-déclaré
6Qwen2.5-Omni-7BQwen57,8 %27 mars 2025Auto-déclaré
7Nova 2 LiteAmazon56,1 %2 décembre 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 62,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OCRBench_V2 indique une bonne maîtrise de l’OCR multimodal dans des contextes variés, avec une capacité à relier du texte visuel à une réponse exploitable. Le score agrégé sur 100 synthétise des performances par tâche, ce qui favorise les modèles capables de combiner lecture, localisation et raisonnement plutôt que de réussir seulement la transcription brute.

L’évaluation repose sur un jeu public de paires QA vérifiées par des humains et sur un test privé, ce qui renforce la rigueur du protocole. Toutefois, les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement. Les limites portent aussi sur la portée linguistique, limitée à l’anglais et au chinois, ainsi que sur les risques classiques de saturation ou de contamination des benchmarks publics.

Dans la base, les résultats restent groupés autour d’un niveau médian de 63 %, avec Qwen3.7-Plus en tête à 67 %. Cet écart suggère une compétition encore serrée entre modèles évalués, sans domination très nette sur l’ensemble des capacités OCR testées.


Sources des scores : llm-stats.