OCRBench-V2 (en)
OCRBench-V2 (en) est un benchmark d'évaluation des modèles d'IA, créé par Groupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique). Il mesure : OCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments…
OCRBench-V2 (en) est un benchmark d'évaluation des modèles d'IA, créé par Groupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique). Il mesure : OCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments complexes, raisonnement logique (31 scénarios, 4x plus de tâches qu'OCRBench v1). OCRBench v2 English subset: Enhanced benchmark for evaluating Large Multimodal Models on visual text localization and reasoning with English text content
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Groupe de recherche de Yuliang Liu (Ling Fu, Zhebin Kuang et al., milieu académique) |
| Capacités mesurées | OCR avancé pour LMM : localisation de texte, perception fine, perception de mise en page, parsing d'éléments complexes, raisonnement logique (31 scénarios, 4x plus de tâches qu'OCRBench v1) |
| Modalité | Multimodal |
| Type de questions | Questions-réponses centrées texte (localisation, reconnaissance, parsing, raisonnement) ; sous-ensemble anglais |
| Métrique d'évaluation | Score sur 100 (métriques variées selon la tâche) |
| Accès | Public |
| Langues | Anglais (sous-ensemble 'en' du benchmark bilingue anglais/chinois) |
| Taille du jeu | 10 000 paires Q-R vérifiées humainement (benchmark bilingue EN/ZH) ; sous-ensemble anglais ici |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 12)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 32B Thinking | Qwen | 68,4 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 32B Instruct | Qwen | 67,4 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 67,1 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 235B A22B Thinking | Qwen | 66,8 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 8B Instruct | Qwen | 65,4 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 8B Thinking | Qwen | 63,9 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 4B Instruct | Qwen | 63,7 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 30B A3B Instruct | Qwen | 63,2 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 30B A3B Thinking | Qwen | 62,6 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 4B Thinking | Qwen | 61,8 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen2.5 VL 72B Instruct | Qwen | 61,5 % | 26 janvier 2025 | Auto-déclaré |
| 12 | Qwen2.5 VL 32B Instruct | Qwen | 57,2 % | 28 février 2025 | Auto-déclaré |
Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 63,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
À retenir : 12 modèles sont classés dans notre base, le score médian s'établit à 64%, Qwen3 VL 32B Thinking (Qwen) occupe la première place.
Sources des scores : llm-stats.