OCRBench-V2 (zh)

OCRBench-V2 (zh) est le sous-ensemble chinois d’un benchmark public consacré à l’évaluation des grands modèles multimodaux sur du texte présent dans l’image. Créé par Huazhong University of Science and Technology, South China University of Technology, University of Adelaide et ByteDance,…

OCRBench-V2 (zh) est le sous-ensemble chinois d’un benchmark public consacré à l’évaluation des grands modèles multimodaux sur du texte présent dans l’image. Créé par Huazhong University of Science and Technology, South China University of Technology, University of Adelaide et ByteDance, il s’inscrit dans la continuité des tests OCR orientés compréhension visuelle.

Le benchmark mesure la reconnaissance du texte chinois, sa localisation visuelle, la perception fine, l’analyse de mise en page et le raisonnement logique à partir de contenus textuels. Son format de questions-réponses visuelles en fait un outil utile pour comparer la capacité des modèles à transformer une scène textuelle en réponse exploitable.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkHuazhong University of Science and Technology, South China University of Technology, University of Adelaide, ByteDance
Capacités mesuréesReconnaissance, localisation visuelle du texte, perception fine, analyse de mise en page et raisonnement logique sur texte chinois
ModalitéMultimodal
Type de questionsQuestions-reponses visuelles (localisation et raisonnement sur le texte)
Métrique d'évaluationScore 0-100 (par tache)
AccèsPublic
Langueschinois
Taille du jeu10 000 paires QA verifiees humainement au total (bilingue EN/ZH), 31 scenarios ; sous-ensemble chinois (zh) extrait de ce total
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 235B A22B ThinkingQwen63,5 %22 septembre 2025Auto-déclaré
2Qwen3 VL 32B ThinkingQwen62,1 %22 septembre 2025Auto-déclaré
3Qwen3 VL 235B A22B InstructQwen61,8 %22 septembre 2025Auto-déclaré
4Qwen3 VL 8B InstructQwen61,2 %22 septembre 2025Auto-déclaré
5Qwen3 VL 30B A3B ThinkingQwen60,4 %22 septembre 2025Auto-déclaré
6Qwen3 VL 32B InstructQwen59,2 %22 septembre 2025Auto-déclaré
7Qwen3 VL 8B ThinkingQwen59,2 %22 septembre 2025Auto-déclaré
8Qwen2.5 VL 32B InstructQwen59,1 %28 février 2025Auto-déclaré
9Qwen3 VL 30B A3B InstructQwen57,8 %22 septembre 2025Auto-déclaré
10Qwen3 VL 4B InstructQwen57,6 %22 septembre 2025Auto-déclaré
11Qwen3 VL 4B ThinkingQwen55,8 %22 septembre 2025Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 59,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OCRBench-V2 (zh) indique une bonne maîtrise conjointe de la lecture du chinois dans l’image, de la localisation des éléments textuels et du raisonnement fondé sur ces informations. La présence d’un meilleur score à 64% et d’une médiane à 59% suggère un benchmark encore discriminant parmi les 11 modèles suivis dans la base, avec des écarts qui restent pertinents pour distinguer les systèmes les plus performants. Qwen3 VL 235B A22B Thinking arrive en tête, ce qui met en avant les modèles multimodaux spécialisés dans la compréhension visuelle de texte. L’interprétation doit toutefois rester prudente: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité sans protocole de vérification indépendant systématique. Le périmètre est également ciblé, avec un sous-ensemble chinois extrait d’un corpus bilingue plus large. Comme pour tout benchmark public, la contamination potentielle des données et une future saturation des scores peuvent réduire progressivement son pouvoir de différenciation.


Sources des scores : llm-stats.