Mathématiques

SuperGPQA

SuperGPQA est un benchmark public conçu pour évaluer les grands modèles de langage sur des connaissances académiques avancées et du raisonnement de niveau master ou doctorat. Créé par M-A-P, ByteDance Seed et 2077.AI, il couvre un très large spectre de disciplines, y compris des domaines…

Le test repose sur des QCM en anglais et vise à mesurer l’exactitude des réponses dans des contextes exigeants. Son intérêt est de situer les modèles au-delà des tâches de culture générale, en examinant leur capacité à mobiliser des savoirs experts.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	M-A-P, ByteDance Seed et 2077.AI
Capacités mesurées	Connaissances et raisonnement de niveau master/doctorat couvrant 285 disciplines académiques, y compris des domaines de niche
Modalité	Texte
Type de questions	QCM (choix multiple) de niveau études supérieures
Métrique d'évaluation	exactitude (accuracy)
Accès	Public
Langues	anglais
Taille du jeu	26 529 questions sur 285 disciplines (13 grands domaines)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	73,6 %	19 mai 2026	Auto-déclaré
2	Qwen3.6 Plus	Qwen	71,6 %	31 mars 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	71,4 %	31 mai 2026	Auto-déclaré
4	Seed 2.1 Pro	bytedance	70,8 %	24 juin 2026	Auto-déclaré
5	Qwen3.5-397B-A17B	Qwen	70,4 %	16 février 2026	Auto-déclaré
6	Seed 2.1 Turbo	bytedance	67,4 %	24 juin 2026	Auto-déclaré
7	Qwen3.5-122B-A10B	Qwen	67,1 %	24 février 2026	Auto-déclaré
8	Qwen3.6-27B	Qwen	66,0 %	21 avril 2026	Auto-déclaré
9	Qwen3.5-27B	Qwen	65,6 %	24 février 2026	Auto-déclaré
10	Qwen3 Max	Qwen	65,1 %	9 février 2026	Auto-déclaré
11	Qwen3-235B-A22B-Thinking-2507	Qwen	64,9 %	25 juillet 2025	Auto-déclaré
12	Qwen3.6-35B-A3B	Qwen	64,7 %	16 avril 2026	Auto-déclaré
13	Qwen3 VL 235B A22B Thinking	Qwen	64,3 %	22 septembre 2025	Auto-déclaré
14	Qwen3.5-35B-A3B	Qwen	63,4 %	24 février 2026	Auto-déclaré
15	Qwen3-235B-A22B-Instruct-2507	Qwen	62,6 %	22 juillet 2025	Auto-déclaré
16	Qwen3-Next-80B-A3B-Thinking	Qwen	60,8 %	10 septembre 2025	Auto-déclaré
17	Qwen3 VL 235B A22B Instruct	Qwen	60,4 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 32B Thinking	Qwen	59,0 %	22 septembre 2025	Auto-déclaré
19	Qwen3-Next-80B-A3B-Instruct	Qwen	58,8 %	10 septembre 2025	Auto-déclaré
20	Qwen3.5-9B	Qwen	58,2 %	2 mars 2026	Auto-déclaré

Classement établi sur 34 modèles évalués, dont 29 de grands éditeurs. Score médian de l'ensemble : 59,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SuperGPQA indique une forte capacité à répondre correctement à des questions académiques complexes, dans des domaines variés et parfois très spécialisés. Le benchmark reste difficile dans la base observée: le meilleur modèle recensé, Qwen3.7 Max, atteint 74 %, tandis que le score médian est de 60 %, ce qui suggère une marge de progression importante et une saturation limitée à ce stade. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Sa portée est aussi circonscrite: questions à choix multiple, langue anglaise, cadre académique de niveau études supérieures. Comme pour tout benchmark public, l’exposition des questions peut créer un risque de contamination des données d’entraînement. Le classement met surtout en évidence les modèles les plus solides sur la connaissance experte et le raisonnement académique, sans résumer à lui seul leurs performances en production ou sur des tâches ouvertes.

Sources des scores : llm-stats.

SuperGPQA

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++