CC-OCR
CC-OCR est un benchmark public conçu par Alibaba Group, via Alibaba Research et l’équipe Qwen, pour évaluer les grands modèles multimodaux sur des tâches d’alphabétisation visuelle. Il se concentre sur la capacité à lire, comprendre et structurer du texte présent dans des images variées.
CC-OCR est un benchmark public conçu par Alibaba Group, via Alibaba Research et l’équipe Qwen, pour évaluer les grands modèles multimodaux sur des tâches d’alphabétisation visuelle. Il se concentre sur la capacité à lire, comprendre et structurer du texte présent dans des images variées.
Le test couvre des situations d’OCR multi-scènes et multilingues, le parsing de documents et l’extraction d’informations clés. Il sert à mesurer la fiabilité des modèles face à des textes orientés différemment, des documents complexes et des risques d’hallucination ou de répétition.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Alibaba Group (Alibaba Research / équipe Qwen) |
| Capacités mesurées | OCR, multimodal, lecture de texte multi-scènes et multilingue, parsing de documents, extraction d'information structurée, vision |
| Modalité | Multimodal |
| Type de questions | OCR / lecture de texte, parsing de documents, extraction d'informations clés (4 tracks) |
| Métrique d'évaluation | exactitude / scores par track (basés sur distance d'édition et F1), score global agrégé |
| Accès | Public |
| Licence | MIT |
| Langues | multilingue (plusieurs langues) |
| Taille du jeu | 7058 images annotées, 39 sous-ensembles (~41% issus d'applications réelles) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 18)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 83,4 % | 31 mars 2026 | Auto-déclaré |
| 2 | Qwen3 VL 235B A22B Instruct | Qwen | 82,2 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3.6-35B-A3B | Qwen | 81,9 % | 16 avril 2026 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 81,8 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Thinking | Qwen | 81,5 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3.6-27B | Qwen | 81,2 % | 21 avril 2026 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 81,0 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3 VL 30B A3B Instruct | Qwen | 80,7 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3.5-35B-A3B | Qwen | 80,7 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3 VL 32B Instruct | Qwen | 80,3 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 8B Instruct | Qwen | 79,9 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen2.5 VL 72B Instruct | Qwen | 79,8 % | 26 janvier 2025 | Auto-déclaré |
| 13 | Qwen2.5 VL 7B Instruct | Qwen | 77,8 % | 26 janvier 2025 | Auto-déclaré |
| 14 | Qwen3 VL 30B A3B Thinking | Qwen | 77,8 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen2.5 VL 32B Instruct | Qwen | 77,1 % | 28 février 2025 | Auto-déclaré |
| 16 | Qwen3 VL 8B Thinking | Qwen | 76,3 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 4B Instruct | Qwen | 76,2 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 4B Thinking | Qwen | 73,8 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 18 modèles évalués, dont 18 de grands éditeurs. Score médian de l'ensemble : 80,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CC-OCR indique une bonne maîtrise des tâches d’OCR multimodal, notamment la reconnaissance de texte dans des scènes diverses, la lecture multilingue, la structuration de documents et l’extraction d’informations clés. Les scores reposent sur des mesures par track, fondées sur la distance d’édition et le F1, puis agrégées en un score global. La lecture du classement doit toutefois rester prudente: les résultats sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le benchmark étant public, il ne permet pas à lui seul d’écarter les effets d’optimisation ciblée ou de contamination des données. La portée reste aussi spécialisée: un bon résultat renseigne surtout sur la littératie visuelle et documentaire, pas sur l’ensemble des capacités d’un modèle. Le classement disponible révèle surtout les performances de modèles Qwen, puisque tous les modèles classés dans la base sont édités par Qwen, également impliqué dans le développement du benchmark. Il n’offre donc pas une comparaison indépendante avec d’autres éditeurs.
Sources des scores : llm-stats.