Connaissances & sciences

NOVA-63

NOVA-63 est un benchmark multilingue destiné à évaluer les grands modèles de langage dans des contextes linguistiques variés. Créé par Jinyang Zhang et al., de l’Université de Pékin et d’Alibaba Group, il s’appuie sur des questions rédigées par des locuteurs natifs afin de limiter les…

Le test mesure la capacité des modèles à répondre à des questions académiques couvrant un large éventail de disciplines, avec un contrôle de la difficulté. Il sert ainsi de repère pour comparer la robustesse linguistique et disciplinaire des LLM au-delà des évaluations centrées sur l’anglais.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Jinyang Zhang et al. (Université de Pékin & Alibaba Group)
Capacités mesurées	Évalue les capacités multilingues des LLM via des questions rédigées par des locuteurs natifs (sans translationese) couvrant 63 disciplines académiques, avec contrôle de difficulté.
Modalité	Texte
Accès	Public
Licence	MIT (jeu de données Hugging Face) ; texte du papier sous CC BY 4.0
Langues	14 langues (dont arabe, chinois, anglais)
Taille du jeu	93 536 questions
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-397B-A17B	Qwen	59,1 %	16 février 2026	Auto-déclaré
2	Qwen3.7 Max	Qwen	59,0 %	19 mai 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	58,8 %	31 mai 2026	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	58,6 %	24 février 2026	Auto-déclaré
5	Qwen3.5-27B	Qwen	58,1 %	24 février 2026	Auto-déclaré
6	Qwen3.6 Plus	Qwen	57,9 %	31 mars 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	57,1 %	24 février 2026	Auto-déclaré
8	Qwen3.5-9B	Qwen	55,9 %	2 mars 2026	Auto-déclaré
9	Qwen3.5-4B	Qwen	54,3 %	2 mars 2026	Auto-déclaré
10	Qwen3.5-2B	Qwen	46,4 %	2 mars 2026	Auto-déclaré
11	Qwen3.5-0.8B	Qwen	42,4 %	2 mars 2026	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 57,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur NOVA-63 indique une meilleure aptitude à traiter des questions académiques formulées naturellement dans plusieurs langues, sans dépendre d’un texte traduit. La présence d’un contrôle de difficulté renforce l’intérêt comparatif du benchmark, car elle réduit le risque qu’un modèle soit avantagé uniquement par des questions plus faciles. La lecture du classement doit toutefois rester prudente : les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. Le leaderboard observé montre aussi un écart très réduit entre le score médian de l’ensemble et le meilleur résultat, ce qui suggère un classement peu discriminant à ce niveau de performance. Les limites principales tiennent à la portée académique du test, à la possibilité de contamination liée à un accès public au jeu, et au fait qu’il ne couvre pas toutes les situations d’usage multilingue, notamment les interactions longues, les tâches professionnelles spécialisées ou le raisonnement multimodal.

Sources des scores : llm-stats.

NOVA-63

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench