OCRBench-V2 (zh)
OCRBench-V2 (zh) est le sous-ensemble chinois d’un benchmark public consacré à l’évaluation des grands modèles multimodaux sur du texte présent dans l’image. Créé par Huazhong University of Science and Technology, South China University of Technology, University of Adelaide et ByteDance,…
OCRBench-V2 (zh) est le sous-ensemble chinois d’un benchmark public consacré à l’évaluation des grands modèles multimodaux sur du texte présent dans l’image. Créé par Huazhong University of Science and Technology, South China University of Technology, University of Adelaide et ByteDance, il s’inscrit dans la continuité des tests OCR orientés compréhension visuelle.
Le benchmark mesure la reconnaissance du texte chinois, sa localisation visuelle, la perception fine, l’analyse de mise en page et le raisonnement logique à partir de contenus textuels. Son format de questions-réponses visuelles en fait un outil utile pour comparer la capacité des modèles à transformer une scène textuelle en réponse exploitable.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Huazhong University of Science and Technology, South China University of Technology, University of Adelaide, ByteDance |
| Capacités mesurées | Reconnaissance, localisation visuelle du texte, perception fine, analyse de mise en page et raisonnement logique sur texte chinois |
| Modalité | Multimodal |
| Type de questions | Questions-reponses visuelles (localisation et raisonnement sur le texte) |
| Métrique d'évaluation | Score 0-100 (par tache) |
| Accès | Public |
| Langues | chinois |
| Taille du jeu | 10 000 paires QA verifiees humainement au total (bilingue EN/ZH), 31 scenarios ; sous-ensemble chinois (zh) extrait de ce total |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 235B A22B Thinking | Qwen | 63,5 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 32B Thinking | Qwen | 62,1 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 61,8 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 8B Instruct | Qwen | 61,2 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 30B A3B Thinking | Qwen | 60,4 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 32B Instruct | Qwen | 59,2 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 8B Thinking | Qwen | 59,2 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen2.5 VL 32B Instruct | Qwen | 59,1 % | 28 février 2025 | Auto-déclaré |
| 9 | Qwen3 VL 30B A3B Instruct | Qwen | 57,8 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 4B Instruct | Qwen | 57,6 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 4B Thinking | Qwen | 55,8 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 59,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OCRBench-V2 (zh) indique une bonne maîtrise conjointe de la lecture du chinois dans l’image, de la localisation des éléments textuels et du raisonnement fondé sur ces informations. La présence d’un meilleur score à 64% et d’une médiane à 59% suggère un benchmark encore discriminant parmi les 11 modèles suivis dans la base, avec des écarts qui restent pertinents pour distinguer les systèmes les plus performants. Qwen3 VL 235B A22B Thinking arrive en tête, ce qui met en avant les modèles multimodaux spécialisés dans la compréhension visuelle de texte. L’interprétation doit toutefois rester prudente: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité sans protocole de vérification indépendant systématique. Le périmètre est également ciblé, avec un sous-ensemble chinois extrait d’un corpus bilingue plus large. Comme pour tout benchmark public, la contamination potentielle des données et une future saturation des scores peuvent réduire progressivement son pouvoir de différenciation.
Sources des scores : llm-stats.