NOVA-63
NOVA-63 est un benchmark multilingue destiné à évaluer les grands modèles de langage dans des contextes linguistiques variés. Créé par Jinyang Zhang et al., de l’Université de Pékin et d’Alibaba Group, il s’appuie sur des questions rédigées par des locuteurs natifs afin de limiter les…
NOVA-63 est un benchmark multilingue destiné à évaluer les grands modèles de langage dans des contextes linguistiques variés. Créé par Jinyang Zhang et al., de l’Université de Pékin et d’Alibaba Group, il s’appuie sur des questions rédigées par des locuteurs natifs afin de limiter les effets de traduction artificielle.
Le test mesure la capacité des modèles à répondre à des questions académiques couvrant un large éventail de disciplines, avec un contrôle de la difficulté. Il sert ainsi de repère pour comparer la robustesse linguistique et disciplinaire des LLM au-delà des évaluations centrées sur l’anglais.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Jinyang Zhang et al. (Université de Pékin & Alibaba Group) |
| Capacités mesurées | Évalue les capacités multilingues des LLM via des questions rédigées par des locuteurs natifs (sans translationese) couvrant 63 disciplines académiques, avec contrôle de difficulté. |
| Modalité | Texte |
| Accès | Public |
| Licence | MIT (jeu de données Hugging Face) ; texte du papier sous CC BY 4.0 |
| Langues | 14 langues (dont arabe, chinois, anglais) |
| Taille du jeu | 93 536 questions |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-397B-A17B | Qwen | 59,1 % | 16 février 2026 | Auto-déclaré |
| 2 | Qwen3.7 Max | Qwen | 59,0 % | 19 mai 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 58,8 % | 31 mai 2026 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 58,6 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3.5-27B | Qwen | 58,1 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.6 Plus | Qwen | 57,9 % | 31 mars 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 57,1 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.5-9B | Qwen | 55,9 % | 2 mars 2026 | Auto-déclaré |
| 9 | Qwen3.5-4B | Qwen | 54,3 % | 2 mars 2026 | Auto-déclaré |
| 10 | Qwen3.5-2B | Qwen | 46,4 % | 2 mars 2026 | Auto-déclaré |
| 11 | Qwen3.5-0.8B | Qwen | 42,4 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 57,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur NOVA-63 indique une meilleure aptitude à traiter des questions académiques formulées naturellement dans plusieurs langues, sans dépendre d’un texte traduit. La présence d’un contrôle de difficulté renforce l’intérêt comparatif du benchmark, car elle réduit le risque qu’un modèle soit avantagé uniquement par des questions plus faciles. La lecture du classement doit toutefois rester prudente : les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. Le leaderboard observé montre aussi un écart très réduit entre le score médian de l’ensemble et le meilleur résultat, ce qui suggère un classement peu discriminant à ce niveau de performance. Les limites principales tiennent à la portée académique du test, à la possibilité de contamination liée à un accès public au jeu, et au fait qu’il ne couvre pas toutes les situations d’usage multilingue, notamment les interactions longues, les tâches professionnelles spécialisées ou le raisonnement multimodal.
Sources des scores : llm-stats.