SuperGPQA

SuperGPQA est un benchmark public conçu pour évaluer les grands modèles de langage sur des connaissances académiques avancées et du raisonnement de niveau master ou doctorat. Créé par M-A-P, ByteDance Seed et 2077.AI, il couvre un très large spectre de disciplines, y compris des domaines…

SuperGPQA est un benchmark public conçu pour évaluer les grands modèles de langage sur des connaissances académiques avancées et du raisonnement de niveau master ou doctorat. Créé par M-A-P, ByteDance Seed et 2077.AI, il couvre un très large spectre de disciplines, y compris des domaines spécialisés rarement représentés dans les évaluations généralistes.

Le test repose sur des QCM en anglais et vise à mesurer l’exactitude des réponses dans des contextes exigeants. Son intérêt est de situer les modèles au-delà des tâches de culture générale, en examinant leur capacité à mobiliser des savoirs experts.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkM-A-P, ByteDance Seed et 2077.AI
Capacités mesuréesConnaissances et raisonnement de niveau master/doctorat couvrant 285 disciplines académiques, y compris des domaines de niche
ModalitéTexte
Type de questionsQCM (choix multiple) de niveau études supérieures
Métrique d'évaluationexactitude (accuracy)
AccèsPublic
Languesanglais
Taille du jeu26 529 questions sur 285 disciplines (13 grands domaines)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen73,6 %19 mai 2026Auto-déclaré
2Qwen3.6 PlusQwen71,6 %31 mars 2026Auto-déclaré
3Qwen3.7-PlusQwen71,4 %31 mai 2026Auto-déclaré
4Seed 2.1 Probytedance70,8 %24 juin 2026Auto-déclaré
5Qwen3.5-397B-A17BQwen70,4 %16 février 2026Auto-déclaré
6Seed 2.1 Turbobytedance67,4 %24 juin 2026Auto-déclaré
7Qwen3.5-122B-A10BQwen67,1 %24 février 2026Auto-déclaré
8Qwen3.6-27BQwen66,0 %21 avril 2026Auto-déclaré
9Qwen3.5-27BQwen65,6 %24 février 2026Auto-déclaré
10Qwen3 MaxQwen65,1 %9 février 2026Auto-déclaré
11Qwen3-235B-A22B-Thinking-2507Qwen64,9 %25 juillet 2025Auto-déclaré
12Qwen3.6-35B-A3BQwen64,7 %16 avril 2026Auto-déclaré
13Qwen3 VL 235B A22B ThinkingQwen64,3 %22 septembre 2025Auto-déclaré
14Qwen3.5-35B-A3BQwen63,4 %24 février 2026Auto-déclaré
15Qwen3-235B-A22B-Instruct-2507Qwen62,6 %22 juillet 2025Auto-déclaré
16Qwen3-Next-80B-A3B-ThinkingQwen60,8 %10 septembre 2025Auto-déclaré
17Qwen3 VL 235B A22B InstructQwen60,4 %22 septembre 2025Auto-déclaré
18Qwen3 VL 32B ThinkingQwen59,0 %22 septembre 2025Auto-déclaré
19Qwen3-Next-80B-A3B-InstructQwen58,8 %10 septembre 2025Auto-déclaré
20Qwen3.5-9BQwen58,2 %2 mars 2026Auto-déclaré

Classement établi sur 34 modèles évalués, dont 29 de grands éditeurs. Score médian de l'ensemble : 59,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SuperGPQA indique une forte capacité à répondre correctement à des questions académiques complexes, dans des domaines variés et parfois très spécialisés. Le benchmark reste difficile dans la base observée: le meilleur modèle recensé, Qwen3.7 Max, atteint 74 %, tandis que le score médian est de 60 %, ce qui suggère une marge de progression importante et une saturation limitée à ce stade. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Sa portée est aussi circonscrite: questions à choix multiple, langue anglaise, cadre académique de niveau études supérieures. Comme pour tout benchmark public, l’exposition des questions peut créer un risque de contamination des données d’entraînement. Le classement met surtout en évidence les modèles les plus solides sur la connaissance experte et le raisonnement académique, sans résumer à lui seul leurs performances en production ou sur des tâches ouvertes.


Sources des scores : llm-stats.