Vision & multimodal

OCRBench

OCRBench est un benchmark public proposé par Yuliang Liu et al. en 2023 pour évaluer les capacités d’OCR des grands modèles multimodaux. Il se concentre sur la lecture et l’exploitation de texte visible dans des images, des scènes naturelles et des documents.

Le benchmark repose sur des questions ouvertes à réponse courte associées à des images. Il sert à mesurer non seulement la reconnaissance de texte, mais aussi la capacité à utiliser ce texte dans des tâches de VQA centrée sur le texte et de compréhension documentaire.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Yuliang Liu et al.
Capacités mesurées	image vers texte, vision
Modalité	Multimodal
Type de questions	questions ouvertes à réponse courte sur image, incluant reconnaissance de texte, VQA centrée sur le texte et compréhension de documents
Métrique d'évaluation	accuracy / exact match, agrégée en score total
Accès	Public
Langues	principalement anglais
Taille du jeu	1 000 questions issues de 29 jeux de données
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2.5	Moonshot AI	92,3 %	27 janvier 2026	Auto-déclaré
2	Qwen3.5-122B-A10B	Qwen	92,1 %	24 février 2026	Auto-déclaré
3	Qwen3 VL 235B A22B Instruct	Qwen	92,0 %	22 septembre 2025	Auto-déclaré
4	Qwen3.5-35B-A3B	Qwen	91,0 %	24 février 2026	Auto-déclaré
5	Qwen3 VL 30B A3B Instruct	Qwen	90,3 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 8B Instruct	Qwen	89,6 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 32B Instruct	Qwen	89,5 %	22 septembre 2025	Auto-déclaré
8	Qwen3.5-27B	Qwen	89,4 %	24 février 2026	Auto-déclaré
9	Qwen3.6-27B	Qwen	89,4 %	21 avril 2026	Auto-déclaré
10	Qwen2.5 VL 72B Instruct	Qwen	88,5 %	26 janvier 2025	Auto-déclaré
11	Qwen3 VL 4B Instruct	Qwen	88,1 %	22 septembre 2025	Auto-déclaré
12	Qwen2-VL-72B-Instruct	Qwen	87,7 %	29 août 2024	Auto-déclaré
13	Qwen3 VL 235B A22B Thinking	Qwen	87,5 %	22 septembre 2025	Auto-déclaré
14	Qwen2.5 VL 7B Instruct	Qwen	86,4 %	26 janvier 2025	Auto-déclaré
15	Qwen3 VL 32B Thinking	Qwen	85,5 %	22 septembre 2025	Auto-déclaré
16	Phi-4-multimodal-instruct	Microsoft	84,4 %	1 février 2025	Auto-déclaré
17	Qwen3 VL 30B A3B Thinking	Qwen	83,9 %	22 septembre 2025	Auto-déclaré
18	DeepSeek VL2 Small	DeepSeek	83,4 %	13 décembre 2024	Auto-déclaré
19	Qwen3 VL 8B Thinking	Qwen	81,9 %	22 septembre 2025	Auto-déclaré
20	DeepSeek VL2	DeepSeek	81,1 %	13 décembre 2024	Auto-déclaré

Classement établi sur 22 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 87,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OCRBench indique qu’un modèle multimodal parvient généralement à identifier du texte dans l’image et à produire une réponse courte conforme à la référence, selon une logique d’accuracy ou d’exact match. La médiane élevée observée dans la base, avec 22 modèles évalués, suggère toutefois une possible saturation partielle du benchmark, le meilleur score recensé atteignant 92% avec Kimi K2.5 (Moonshot AI). L’écart limité avec la médiane à 88% réduit la capacité du classement à distinguer finement les modèles les plus performants. La fiabilité doit aussi être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Comme OCRBench est public, un risque de contamination existe pour les modèles entraînés ou ajustés après sa publication. Sa portée reste centrée sur des tâches principalement en anglais et sur 1 000 questions issues de jeux existants, ce qui limite l’extrapolation à d’autres langues ou usages documentaires spécialisés.

Sources des scores : llm-stats.

OCRBench

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23