CC-OCR

CC-OCR est un benchmark public conçu par Alibaba Group, via Alibaba Research et l’équipe Qwen, pour évaluer les grands modèles multimodaux sur des tâches d’alphabétisation visuelle. Il se concentre sur la capacité à lire, comprendre et structurer du texte présent dans des images variées.

CC-OCR est un benchmark public conçu par Alibaba Group, via Alibaba Research et l’équipe Qwen, pour évaluer les grands modèles multimodaux sur des tâches d’alphabétisation visuelle. Il se concentre sur la capacité à lire, comprendre et structurer du texte présent dans des images variées.

Le test couvre des situations d’OCR multi-scènes et multilingues, le parsing de documents et l’extraction d’informations clés. Il sert à mesurer la fiabilité des modèles face à des textes orientés différemment, des documents complexes et des risques d’hallucination ou de répétition.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAlibaba Group (Alibaba Research / équipe Qwen)
Capacités mesuréesOCR, multimodal, lecture de texte multi-scènes et multilingue, parsing de documents, extraction d'information structurée, vision
ModalitéMultimodal
Type de questionsOCR / lecture de texte, parsing de documents, extraction d'informations clés (4 tracks)
Métrique d'évaluationexactitude / scores par track (basés sur distance d'édition et F1), score global agrégé
AccèsPublic
LicenceMIT
Languesmultilingue (plusieurs langues)
Taille du jeu7058 images annotées, 39 sous-ensembles (~41% issus d'applications réelles)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 18)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6 PlusQwen83,4 %31 mars 2026Auto-déclaré
2Qwen3 VL 235B A22B InstructQwen82,2 %22 septembre 2025Auto-déclaré
3Qwen3.6-35B-A3BQwen81,9 %16 avril 2026Auto-déclaré
4Qwen3.5-122B-A10BQwen81,8 %24 février 2026Auto-déclaré
5Qwen3 VL 235B A22B ThinkingQwen81,5 %22 septembre 2025Auto-déclaré
6Qwen3.6-27BQwen81,2 %21 avril 2026Auto-déclaré
7Qwen3.5-27BQwen81,0 %24 février 2026Auto-déclaré
8Qwen3 VL 30B A3B InstructQwen80,7 %22 septembre 2025Auto-déclaré
9Qwen3.5-35B-A3BQwen80,7 %24 février 2026Auto-déclaré
10Qwen3 VL 32B InstructQwen80,3 %22 septembre 2025Auto-déclaré
11Qwen3 VL 8B InstructQwen79,9 %22 septembre 2025Auto-déclaré
12Qwen2.5 VL 72B InstructQwen79,8 %26 janvier 2025Auto-déclaré
13Qwen2.5 VL 7B InstructQwen77,8 %26 janvier 2025Auto-déclaré
14Qwen3 VL 30B A3B ThinkingQwen77,8 %22 septembre 2025Auto-déclaré
15Qwen2.5 VL 32B InstructQwen77,1 %28 février 2025Auto-déclaré
16Qwen3 VL 8B ThinkingQwen76,3 %22 septembre 2025Auto-déclaré
17Qwen3 VL 4B InstructQwen76,2 %22 septembre 2025Auto-déclaré
18Qwen3 VL 4B ThinkingQwen73,8 %22 septembre 2025Auto-déclaré

Classement établi sur 18 modèles évalués, dont 18 de grands éditeurs. Score médian de l'ensemble : 80,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CC-OCR indique une bonne maîtrise des tâches d’OCR multimodal, notamment la reconnaissance de texte dans des scènes diverses, la lecture multilingue, la structuration de documents et l’extraction d’informations clés. Les scores reposent sur des mesures par track, fondées sur la distance d’édition et le F1, puis agrégées en un score global. La lecture du classement doit toutefois rester prudente: les résultats sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le benchmark étant public, il ne permet pas à lui seul d’écarter les effets d’optimisation ciblée ou de contamination des données. La portée reste aussi spécialisée: un bon résultat renseigne surtout sur la littératie visuelle et documentaire, pas sur l’ensemble des capacités d’un modèle. Le classement disponible révèle surtout les performances de modèles Qwen, puisque tous les modèles classés dans la base sont édités par Qwen, également impliqué dans le développement du benchmark. Il n’offre donc pas une comparaison indépendante avec d’autres éditeurs.


Sources des scores : llm-stats.