Vision & multimodal

OCRBench-V2 (zh)

OCRBench-V2 (zh) est le sous-ensemble chinois d’un benchmark public consacré à l’évaluation des grands modèles multimodaux sur du texte présent dans l’image. Créé par Huazhong University of Science and Technology, South China University of Technology, University of Adelaide et ByteDance,…

Le benchmark mesure la reconnaissance du texte chinois, sa localisation visuelle, la perception fine, l’analyse de mise en page et le raisonnement logique à partir de contenus textuels. Son format de questions-réponses visuelles en fait un outil utile pour comparer la capacité des modèles à transformer une scène textuelle en réponse exploitable.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Huazhong University of Science and Technology, South China University of Technology, University of Adelaide, ByteDance
Capacités mesurées	Reconnaissance, localisation visuelle du texte, perception fine, analyse de mise en page et raisonnement logique sur texte chinois
Modalité	Multimodal
Type de questions	Questions-reponses visuelles (localisation et raisonnement sur le texte)
Métrique d'évaluation	Score 0-100 (par tache)
Accès	Public
Langues	chinois
Taille du jeu	10 000 paires QA verifiees humainement au total (bilingue EN/ZH), 31 scenarios ; sous-ensemble chinois (zh) extrait de ce total
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 235B A22B Thinking	Qwen	63,5 %	22 septembre 2025	Auto-déclaré
2	Qwen3 VL 32B Thinking	Qwen	62,1 %	22 septembre 2025	Auto-déclaré
3	Qwen3 VL 235B A22B Instruct	Qwen	61,8 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 8B Instruct	Qwen	61,2 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 30B A3B Thinking	Qwen	60,4 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 32B Instruct	Qwen	59,2 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 8B Thinking	Qwen	59,2 %	22 septembre 2025	Auto-déclaré
8	Qwen2.5 VL 32B Instruct	Qwen	59,1 %	28 février 2025	Auto-déclaré
9	Qwen3 VL 30B A3B Instruct	Qwen	57,8 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 4B Instruct	Qwen	57,6 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 4B Thinking	Qwen	55,8 %	22 septembre 2025	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 59,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OCRBench-V2 (zh) indique une bonne maîtrise conjointe de la lecture du chinois dans l’image, de la localisation des éléments textuels et du raisonnement fondé sur ces informations. La présence d’un meilleur score à 64% et d’une médiane à 59% suggère un benchmark encore discriminant parmi les 11 modèles suivis dans la base, avec des écarts qui restent pertinents pour distinguer les systèmes les plus performants. Qwen3 VL 235B A22B Thinking arrive en tête, ce qui met en avant les modèles multimodaux spécialisés dans la compréhension visuelle de texte. L’interprétation doit toutefois rester prudente: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité sans protocole de vérification indépendant systématique. Le périmètre est également ciblé, avec un sous-ensemble chinois extrait d’un corpus bilingue plus large. Comme pour tout benchmark public, la contamination potentielle des données et une future saturation des scores peuvent réduire progressivement son pouvoir de différenciation.

Sources des scores : llm-stats.

OCRBench-V2 (zh)

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench