Vision & multimodal

CC-OCR

CC-OCR est un benchmark public conçu par Alibaba Group, via Alibaba Research et l’équipe Qwen, pour évaluer les grands modèles multimodaux sur des tâches d’alphabétisation visuelle. Il se concentre sur la capacité à lire, comprendre et structurer du texte présent dans des images variées.

Le test couvre des situations d’OCR multi-scènes et multilingues, le parsing de documents et l’extraction d’informations clés. Il sert à mesurer la fiabilité des modèles face à des textes orientés différemment, des documents complexes et des risques d’hallucination ou de répétition.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Alibaba Group (Alibaba Research / équipe Qwen)
Capacités mesurées	OCR, multimodal, lecture de texte multi-scènes et multilingue, parsing de documents, extraction d'information structurée, vision
Modalité	Multimodal
Type de questions	OCR / lecture de texte, parsing de documents, extraction d'informations clés (4 tracks)
Métrique d'évaluation	exactitude / scores par track (basés sur distance d'édition et F1), score global agrégé
Accès	Public
Licence	MIT
Langues	multilingue (plusieurs langues)
Taille du jeu	7058 images annotées, 39 sous-ensembles (~41% issus d'applications réelles)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 18)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6 Plus	Qwen	83,4 %	31 mars 2026	Auto-déclaré
2	Qwen3 VL 235B A22B Instruct	Qwen	82,2 %	22 septembre 2025	Auto-déclaré
3	Qwen3.6-35B-A3B	Qwen	81,9 %	16 avril 2026	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	81,8 %	24 février 2026	Auto-déclaré
5	Qwen3 VL 235B A22B Thinking	Qwen	81,5 %	22 septembre 2025	Auto-déclaré
6	Qwen3.6-27B	Qwen	81,2 %	21 avril 2026	Auto-déclaré
7	Qwen3.5-27B	Qwen	81,0 %	24 février 2026	Auto-déclaré
8	Qwen3 VL 30B A3B Instruct	Qwen	80,7 %	22 septembre 2025	Auto-déclaré
9	Qwen3.5-35B-A3B	Qwen	80,7 %	24 février 2026	Auto-déclaré
10	Qwen3 VL 32B Instruct	Qwen	80,3 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 8B Instruct	Qwen	79,9 %	22 septembre 2025	Auto-déclaré
12	Qwen2.5 VL 72B Instruct	Qwen	79,8 %	26 janvier 2025	Auto-déclaré
13	Qwen2.5 VL 7B Instruct	Qwen	77,8 %	26 janvier 2025	Auto-déclaré
14	Qwen3 VL 30B A3B Thinking	Qwen	77,8 %	22 septembre 2025	Auto-déclaré
15	Qwen2.5 VL 32B Instruct	Qwen	77,1 %	28 février 2025	Auto-déclaré
16	Qwen3 VL 8B Thinking	Qwen	76,3 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 4B Instruct	Qwen	76,2 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 4B Thinking	Qwen	73,8 %	22 septembre 2025	Auto-déclaré

Classement établi sur 18 modèles évalués, dont 18 de grands éditeurs. Score médian de l'ensemble : 80,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CC-OCR indique une bonne maîtrise des tâches d’OCR multimodal, notamment la reconnaissance de texte dans des scènes diverses, la lecture multilingue, la structuration de documents et l’extraction d’informations clés. Les scores reposent sur des mesures par track, fondées sur la distance d’édition et le F1, puis agrégées en un score global. La lecture du classement doit toutefois rester prudente: les résultats sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le benchmark étant public, il ne permet pas à lui seul d’écarter les effets d’optimisation ciblée ou de contamination des données. La portée reste aussi spécialisée: un bon résultat renseigne surtout sur la littératie visuelle et documentaire, pas sur l’ensemble des capacités d’un modèle. Le classement disponible révèle surtout les performances de modèles Qwen, puisque tous les modèles classés dans la base sont édités par Qwen, également impliqué dans le développement du benchmark. Il n’offre donc pas une comparaison indépendante avec d’autres éditeurs.

Sources des scores : llm-stats.

CC-OCR

Carte d'identité

Classement des modèles (top 18)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench