OCRBench

OCRBench est un benchmark public proposé par Yuliang Liu et al. en 2023 pour évaluer les capacités d’OCR des grands modèles multimodaux. Il se concentre sur la lecture et l’exploitation de texte visible dans des images, des scènes naturelles et des documents.

OCRBench est un benchmark public proposé par Yuliang Liu et al. en 2023 pour évaluer les capacités d’OCR des grands modèles multimodaux. Il se concentre sur la lecture et l’exploitation de texte visible dans des images, des scènes naturelles et des documents.

Le benchmark repose sur des questions ouvertes à réponse courte associées à des images. Il sert à mesurer non seulement la reconnaissance de texte, mais aussi la capacité à utiliser ce texte dans des tâches de VQA centrée sur le texte et de compréhension documentaire.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkYuliang Liu et al.
Capacités mesuréesimage vers texte, vision
ModalitéMultimodal
Type de questionsquestions ouvertes à réponse courte sur image, incluant reconnaissance de texte, VQA centrée sur le texte et compréhension de documents
Métrique d'évaluationaccuracy / exact match, agrégée en score total
AccèsPublic
Languesprincipalement anglais
Taille du jeu1 000 questions issues de 29 jeux de données
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2.5Moonshot AI92,3 %27 janvier 2026Auto-déclaré
2Qwen3.5-122B-A10BQwen92,1 %24 février 2026Auto-déclaré
3Qwen3 VL 235B A22B InstructQwen92,0 %22 septembre 2025Auto-déclaré
4Qwen3.5-35B-A3BQwen91,0 %24 février 2026Auto-déclaré
5Qwen3 VL 30B A3B InstructQwen90,3 %22 septembre 2025Auto-déclaré
6Qwen3 VL 8B InstructQwen89,6 %22 septembre 2025Auto-déclaré
7Qwen3 VL 32B InstructQwen89,5 %22 septembre 2025Auto-déclaré
8Qwen3.5-27BQwen89,4 %24 février 2026Auto-déclaré
9Qwen3.6-27BQwen89,4 %21 avril 2026Auto-déclaré
10Qwen2.5 VL 72B InstructQwen88,5 %26 janvier 2025Auto-déclaré
11Qwen3 VL 4B InstructQwen88,1 %22 septembre 2025Auto-déclaré
12Qwen2-VL-72B-InstructQwen87,7 %29 août 2024Auto-déclaré
13Qwen3 VL 235B A22B ThinkingQwen87,5 %22 septembre 2025Auto-déclaré
14Qwen2.5 VL 7B InstructQwen86,4 %26 janvier 2025Auto-déclaré
15Qwen3 VL 32B ThinkingQwen85,5 %22 septembre 2025Auto-déclaré
16Phi-4-multimodal-instructMicrosoft84,4 %1 février 2025Auto-déclaré
17Qwen3 VL 30B A3B ThinkingQwen83,9 %22 septembre 2025Auto-déclaré
18DeepSeek VL2 SmallDeepSeek83,4 %13 décembre 2024Auto-déclaré
19Qwen3 VL 8B ThinkingQwen81,9 %22 septembre 2025Auto-déclaré
20DeepSeek VL2DeepSeek81,1 %13 décembre 2024Auto-déclaré

Classement établi sur 22 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 87,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OCRBench indique qu’un modèle multimodal parvient généralement à identifier du texte dans l’image et à produire une réponse courte conforme à la référence, selon une logique d’accuracy ou d’exact match. La médiane élevée observée dans la base, avec 22 modèles évalués, suggère toutefois une possible saturation partielle du benchmark, le meilleur score recensé atteignant 92% avec Kimi K2.5 (Moonshot AI). L’écart limité avec la médiane à 88% réduit la capacité du classement à distinguer finement les modèles les plus performants. La fiabilité doit aussi être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Comme OCRBench est public, un risque de contamination existe pour les modèles entraînés ou ajustés après sa publication. Sa portée reste centrée sur des tâches principalement en anglais et sur 1 000 questions issues de jeux existants, ce qui limite l’extrapolation à d’autres langues ou usages documentaires spécialisés.


Sources des scores : llm-stats.