NOVA-63

NOVA-63 est un benchmark multilingue destiné à évaluer les grands modèles de langage dans des contextes linguistiques variés. Créé par Jinyang Zhang et al., de l’Université de Pékin et d’Alibaba Group, il s’appuie sur des questions rédigées par des locuteurs natifs afin de limiter les…

NOVA-63 est un benchmark multilingue destiné à évaluer les grands modèles de langage dans des contextes linguistiques variés. Créé par Jinyang Zhang et al., de l’Université de Pékin et d’Alibaba Group, il s’appuie sur des questions rédigées par des locuteurs natifs afin de limiter les effets de traduction artificielle.

Le test mesure la capacité des modèles à répondre à des questions académiques couvrant un large éventail de disciplines, avec un contrôle de la difficulté. Il sert ainsi de repère pour comparer la robustesse linguistique et disciplinaire des LLM au-delà des évaluations centrées sur l’anglais.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkJinyang Zhang et al. (Université de Pékin & Alibaba Group)
Capacités mesuréesÉvalue les capacités multilingues des LLM via des questions rédigées par des locuteurs natifs (sans translationese) couvrant 63 disciplines académiques, avec contrôle de difficulté.
ModalitéTexte
AccèsPublic
LicenceMIT (jeu de données Hugging Face) ; texte du papier sous CC BY 4.0
Langues14 langues (dont arabe, chinois, anglais)
Taille du jeu93 536 questions
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-397B-A17BQwen59,1 %16 février 2026Auto-déclaré
2Qwen3.7 MaxQwen59,0 %19 mai 2026Auto-déclaré
3Qwen3.7-PlusQwen58,8 %31 mai 2026Auto-déclaré
4Qwen3.5-122B-A10BQwen58,6 %24 février 2026Auto-déclaré
5Qwen3.5-27BQwen58,1 %24 février 2026Auto-déclaré
6Qwen3.6 PlusQwen57,9 %31 mars 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen57,1 %24 février 2026Auto-déclaré
8Qwen3.5-9BQwen55,9 %2 mars 2026Auto-déclaré
9Qwen3.5-4BQwen54,3 %2 mars 2026Auto-déclaré
10Qwen3.5-2BQwen46,4 %2 mars 2026Auto-déclaré
11Qwen3.5-0.8BQwen42,4 %2 mars 2026Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 57,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur NOVA-63 indique une meilleure aptitude à traiter des questions académiques formulées naturellement dans plusieurs langues, sans dépendre d’un texte traduit. La présence d’un contrôle de difficulté renforce l’intérêt comparatif du benchmark, car elle réduit le risque qu’un modèle soit avantagé uniquement par des questions plus faciles. La lecture du classement doit toutefois rester prudente : les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. Le leaderboard observé montre aussi un écart très réduit entre le score médian de l’ensemble et le meilleur résultat, ce qui suggère un classement peu discriminant à ce niveau de performance. Les limites principales tiennent à la portée académique du test, à la possibilité de contamination liée à un accès public au jeu, et au fait qu’il ne couvre pas toutes les situations d’usage multilingue, notamment les interactions longues, les tâches professionnelles spécialisées ou le raisonnement multimodal.


Sources des scores : llm-stats.