OCRBench
OCRBench est un benchmark public proposé par Yuliang Liu et al. en 2023 pour évaluer les capacités d’OCR des grands modèles multimodaux. Il se concentre sur la lecture et l’exploitation de texte visible dans des images, des scènes naturelles et des documents.
OCRBench est un benchmark public proposé par Yuliang Liu et al. en 2023 pour évaluer les capacités d’OCR des grands modèles multimodaux. Il se concentre sur la lecture et l’exploitation de texte visible dans des images, des scènes naturelles et des documents.
Le benchmark repose sur des questions ouvertes à réponse courte associées à des images. Il sert à mesurer non seulement la reconnaissance de texte, mais aussi la capacité à utiliser ce texte dans des tâches de VQA centrée sur le texte et de compréhension documentaire.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Yuliang Liu et al. |
| Capacités mesurées | image vers texte, vision |
| Modalité | Multimodal |
| Type de questions | questions ouvertes à réponse courte sur image, incluant reconnaissance de texte, VQA centrée sur le texte et compréhension de documents |
| Métrique d'évaluation | accuracy / exact match, agrégée en score total |
| Accès | Public |
| Langues | principalement anglais |
| Taille du jeu | 1 000 questions issues de 29 jeux de données |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2.5 | Moonshot AI | 92,3 % | 27 janvier 2026 | Auto-déclaré |
| 2 | Qwen3.5-122B-A10B | Qwen | 92,1 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 92,0 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3.5-35B-A3B | Qwen | 91,0 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3 VL 30B A3B Instruct | Qwen | 90,3 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 8B Instruct | Qwen | 89,6 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 32B Instruct | Qwen | 89,5 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3.5-27B | Qwen | 89,4 % | 24 février 2026 | Auto-déclaré |
| 9 | Qwen3.6-27B | Qwen | 89,4 % | 21 avril 2026 | Auto-déclaré |
| 10 | Qwen2.5 VL 72B Instruct | Qwen | 88,5 % | 26 janvier 2025 | Auto-déclaré |
| 11 | Qwen3 VL 4B Instruct | Qwen | 88,1 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen2-VL-72B-Instruct | Qwen | 87,7 % | 29 août 2024 | Auto-déclaré |
| 13 | Qwen3 VL 235B A22B Thinking | Qwen | 87,5 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen2.5 VL 7B Instruct | Qwen | 86,4 % | 26 janvier 2025 | Auto-déclaré |
| 15 | Qwen3 VL 32B Thinking | Qwen | 85,5 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Phi-4-multimodal-instruct | Microsoft | 84,4 % | 1 février 2025 | Auto-déclaré |
| 17 | Qwen3 VL 30B A3B Thinking | Qwen | 83,9 % | 22 septembre 2025 | Auto-déclaré |
| 18 | DeepSeek VL2 Small | DeepSeek | 83,4 % | 13 décembre 2024 | Auto-déclaré |
| 19 | Qwen3 VL 8B Thinking | Qwen | 81,9 % | 22 septembre 2025 | Auto-déclaré |
| 20 | DeepSeek VL2 | DeepSeek | 81,1 % | 13 décembre 2024 | Auto-déclaré |
Classement établi sur 22 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 87,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OCRBench indique qu’un modèle multimodal parvient généralement à identifier du texte dans l’image et à produire une réponse courte conforme à la référence, selon une logique d’accuracy ou d’exact match. La médiane élevée observée dans la base, avec 22 modèles évalués, suggère toutefois une possible saturation partielle du benchmark, le meilleur score recensé atteignant 92% avec Kimi K2.5 (Moonshot AI). L’écart limité avec la médiane à 88% réduit la capacité du classement à distinguer finement les modèles les plus performants. La fiabilité doit aussi être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Comme OCRBench est public, un risque de contamination existe pour les modèles entraînés ou ajustés après sa publication. Sa portée reste centrée sur des tâches principalement en anglais et sur 1 000 questions issues de jeux existants, ce qui limite l’extrapolation à d’autres langues ou usages documentaires spécialisés.
Sources des scores : llm-stats.