Vision & multimodal

OCRBench-V2 (en)

OCRBench-V2 (en) est un benchmark d'évaluation des modèles d'IA, créé par Groupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique). Il mesure : OCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments…

OCRBench-V2 (en) est un benchmark d'évaluation des modèles d'IA, créé par Groupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique). Il mesure : OCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments complexes, raisonnement logique (31 scénarios, 4x plus de tâches qu'OCRBench v1). OCRBench v2 English subset: Enhanced benchmark for evaluating Large Multimodal Models on visual text localization and reasoning with English text content

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Groupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique)
Capacités mesurées	OCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments complexes, raisonnement logique (31 scénarios, 4x plus de tâches qu'OCRBench v1)
Modalité	Multimodal
Type de questions	Questions-réponses centrées texte (localisation, reconnaissance, parsing, raisonnement) ; sous-ensemble anglais
Métrique d'évaluation	Score sur 100 (métriques variées selon la tâche)
Accès	Public
Langues	Anglais (sous-ensemble 'en' du benchmark bilingue anglais/chinois)
Taille du jeu	10 000 paires Q-R vérifiées humainement (benchmark bilingue EN/ZH) ; sous-ensemble anglais ici
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 12)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 32B Thinking	Qwen	68,4 %	22 septembre 2025	Auto-déclaré
2	Qwen3 VL 32B Instruct	Qwen	67,4 %	22 septembre 2025	Auto-déclaré
3	Qwen3 VL 235B A22B Instruct	Qwen	67,1 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 235B A22B Thinking	Qwen	66,8 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 8B Instruct	Qwen	65,4 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 8B Thinking	Qwen	63,9 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 4B Instruct	Qwen	63,7 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 30B A3B Instruct	Qwen	63,2 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 30B A3B Thinking	Qwen	62,6 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 4B Thinking	Qwen	61,8 %	22 septembre 2025	Auto-déclaré
11	Qwen2.5 VL 72B Instruct	Qwen	61,5 %	26 janvier 2025	Auto-déclaré
12	Qwen2.5 VL 32B Instruct	Qwen	57,2 %	28 février 2025	Auto-déclaré

Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 63,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

À retenir : 12 modèles sont classés dans notre base, le score médian s'établit à 64%, Qwen3 VL 32B Thinking (Qwen) occupe la première place.

Sources des scores : llm-stats.

OCRBench-V2 (en)

Carte d'identité

Classement des modèles (top 12)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench