OCRBench-V2 (en)

OCRBench-V2 (en) est un benchmark d'évaluation des modèles d'IA, créé par Groupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique). Il mesure : OCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments…

OCRBench-V2 (en) est un benchmark d'évaluation des modèles d'IA, créé par Groupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique). Il mesure : OCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments complexes, raisonnement logique (31 scénarios, 4x plus de tâches qu'OCRBench v1). OCRBench v2 English subset: Enhanced benchmark for evaluating Large Multimodal Models on visual text localization and reasoning with English text content

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGroupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique)
Capacités mesuréesOCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments complexes, raisonnement logique (31 scénarios, 4x plus de tâches qu'OCRBench v1)
ModalitéMultimodal
Type de questionsQuestions-réponses centrées texte (localisation, reconnaissance, parsing, raisonnement) ; sous-ensemble anglais
Métrique d'évaluationScore sur 100 (métriques variées selon la tâche)
AccèsPublic
LanguesAnglais (sous-ensemble 'en' du benchmark bilingue anglais/chinois)
Taille du jeu10 000 paires Q-R vérifiées humainement (benchmark bilingue EN/ZH) ; sous-ensemble anglais ici
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 12)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 32B ThinkingQwen68,4 %22 septembre 2025Auto-déclaré
2Qwen3 VL 32B InstructQwen67,4 %22 septembre 2025Auto-déclaré
3Qwen3 VL 235B A22B InstructQwen67,1 %22 septembre 2025Auto-déclaré
4Qwen3 VL 235B A22B ThinkingQwen66,8 %22 septembre 2025Auto-déclaré
5Qwen3 VL 8B InstructQwen65,4 %22 septembre 2025Auto-déclaré
6Qwen3 VL 8B ThinkingQwen63,9 %22 septembre 2025Auto-déclaré
7Qwen3 VL 4B InstructQwen63,7 %22 septembre 2025Auto-déclaré
8Qwen3 VL 30B A3B InstructQwen63,2 %22 septembre 2025Auto-déclaré
9Qwen3 VL 30B A3B ThinkingQwen62,6 %22 septembre 2025Auto-déclaré
10Qwen3 VL 4B ThinkingQwen61,8 %22 septembre 2025Auto-déclaré
11Qwen2.5 VL 72B InstructQwen61,5 %26 janvier 2025Auto-déclaré
12Qwen2.5 VL 32B InstructQwen57,2 %28 février 2025Auto-déclaré

Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 63,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

À retenir : 12 modèles sont classés dans notre base, le score médian s'établit à 64%, Qwen3 VL 32B Thinking (Qwen) occupe la première place.


Sources des scores : llm-stats.