OCRBench_V2
OCRBench_V2 est un benchmark d’OCR multimodal bilingue conçu par les auteurs d’OCRBench v2, dont Ling Fu, Zhebin Kuang et Yuliang Liu. Il évalue la capacité des grands modèles multimodaux à lire, localiser et exploiter du texte présent dans des images, en anglais et en chinois.
OCRBench_V2 est un benchmark d’OCR multimodal bilingue conçu par les auteurs d’OCRBench v2, dont Ling Fu, Zhebin Kuang et Yuliang Liu. Il évalue la capacité des grands modèles multimodaux à lire, localiser et exploiter du texte présent dans des images, en anglais et en chinois.
Le benchmark couvre des tâches de reconnaissance, spotting, extraction, parsing, calcul, compréhension et raisonnement visuel. Son intérêt est de tester non seulement la transcription du texte, mais aussi son usage dans des questions-réponses visuelles nécessitant localisation et interprétation.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs OCRBench v2 (Ling Fu, Zhebin Kuang, Yuliang Liu et al.) |
| Capacités mesurées | OCR multimodal bilingue : reconnaissance de texte, referencement, spotting, extraction, parsing, calcul, comprehension et raisonnement sur 31 scenarios. |
| Modalité | Multimodal |
| Type de questions | Questions-reponses visuelles (QA), incluant localisation/spotting de texte |
| Métrique d'évaluation | Score agrege sur 100 (metriques par tache) |
| Accès | Public |
| Licence | CC BY-SA 4.0 (page projet) |
| Langues | Anglais, chinois (bilingue) |
| Taille du jeu | 10 000 paires QA verifiees par des humains (test public) + 1 500 images (test prive) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7-Plus | Qwen | 67,1 % | 31 mai 2026 | Auto-déclaré |
| 2 | Nova 2 Pro | Amazon | 64,5 % | 2 décembre 2025 | Auto-déclaré |
| 3 | Seed 2.1 Pro | bytedance | 63,2 % | 24 juin 2026 | Auto-déclaré |
| 4 | Seed 2.1 Turbo | bytedance | 62,8 % | 24 juin 2026 | Auto-déclaré |
| 5 | Nova 2 Omni | Amazon | 58,2 % | 2 décembre 2025 | Auto-déclaré |
| 6 | Qwen2.5-Omni-7B | Qwen | 57,8 % | 27 mars 2025 | Auto-déclaré |
| 7 | Nova 2 Lite | Amazon | 56,1 % | 2 décembre 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 62,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OCRBench_V2 indique une bonne maîtrise de l’OCR multimodal dans des contextes variés, avec une capacité à relier du texte visuel à une réponse exploitable. Le score agrégé sur 100 synthétise des performances par tâche, ce qui favorise les modèles capables de combiner lecture, localisation et raisonnement plutôt que de réussir seulement la transcription brute.
L’évaluation repose sur un jeu public de paires QA vérifiées par des humains et sur un test privé, ce qui renforce la rigueur du protocole. Toutefois, les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement. Les limites portent aussi sur la portée linguistique, limitée à l’anglais et au chinois, ainsi que sur les risques classiques de saturation ou de contamination des benchmarks publics.
Dans la base, les résultats restent groupés autour d’un niveau médian de 63 %, avec Qwen3.7-Plus en tête à 67 %. Cet écart suggère une compétition encore serrée entre modèles évalués, sans domination très nette sur l’ensemble des capacités OCR testées.
Sources des scores : llm-stats.