Vision & multimodal

OCRBench_V2

OCRBench_V2 est un benchmark d’OCR multimodal bilingue conçu par les auteurs d’OCRBench v2, dont Ling Fu, Zhebin Kuang et Yuliang Liu. Il évalue la capacité des grands modèles multimodaux à lire, localiser et exploiter du texte présent dans des images, en anglais et en chinois.

Le benchmark couvre des tâches de reconnaissance, spotting, extraction, parsing, calcul, compréhension et raisonnement visuel. Son intérêt est de tester non seulement la transcription du texte, mais aussi son usage dans des questions-réponses visuelles nécessitant localisation et interprétation.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs OCRBench v2 (Ling Fu, Zhebin Kuang, Yuliang Liu et al.)
Capacités mesurées	OCR multimodal bilingue : reconnaissance de texte, referencement, spotting, extraction, parsing, calcul, comprehension et raisonnement sur 31 scenarios.
Modalité	Multimodal
Type de questions	Questions-reponses visuelles (QA), incluant localisation/spotting de texte
Métrique d'évaluation	Score agrege sur 100 (metriques par tache)
Accès	Public
Licence	CC BY-SA 4.0 (page projet)
Langues	Anglais, chinois (bilingue)
Taille du jeu	10 000 paires QA verifiees par des humains (test public) + 1 500 images (test prive)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7-Plus	Qwen	67,1 %	31 mai 2026	Auto-déclaré
2	Nova 2 Pro	Amazon	64,5 %	2 décembre 2025	Auto-déclaré
3	Seed 2.1 Pro	bytedance	63,2 %	24 juin 2026	Auto-déclaré
4	Seed 2.1 Turbo	bytedance	62,8 %	24 juin 2026	Auto-déclaré
5	Nova 2 Omni	Amazon	58,2 %	2 décembre 2025	Auto-déclaré
6	Qwen2.5-Omni-7B	Qwen	57,8 %	27 mars 2025	Auto-déclaré
7	Nova 2 Lite	Amazon	56,1 %	2 décembre 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 62,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OCRBench_V2 indique une bonne maîtrise de l’OCR multimodal dans des contextes variés, avec une capacité à relier du texte visuel à une réponse exploitable. Le score agrégé sur 100 synthétise des performances par tâche, ce qui favorise les modèles capables de combiner lecture, localisation et raisonnement plutôt que de réussir seulement la transcription brute.

L’évaluation repose sur un jeu public de paires QA vérifiées par des humains et sur un test privé, ce qui renforce la rigueur du protocole. Toutefois, les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement. Les limites portent aussi sur la portée linguistique, limitée à l’anglais et au chinois, ainsi que sur les risques classiques de saturation ou de contamination des benchmarks publics.

Dans la base, les résultats restent groupés autour d’un niveau médian de 63 %, avec Qwen3.7-Plus en tête à 67 %. Cet écart suggère une compétition encore serrée entre modèles évalués, sans domination très nette sur l’ensemble des capacités OCR testées.

Sources des scores : llm-stats.

OCRBench_V2

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench