SuperGPQA
SuperGPQA est un benchmark public conçu pour évaluer les grands modèles de langage sur des connaissances académiques avancées et du raisonnement de niveau master ou doctorat. Créé par M-A-P, ByteDance Seed et 2077.AI, il couvre un très large spectre de disciplines, y compris des domaines…
SuperGPQA est un benchmark public conçu pour évaluer les grands modèles de langage sur des connaissances académiques avancées et du raisonnement de niveau master ou doctorat. Créé par M-A-P, ByteDance Seed et 2077.AI, il couvre un très large spectre de disciplines, y compris des domaines spécialisés rarement représentés dans les évaluations généralistes.
Le test repose sur des QCM en anglais et vise à mesurer l’exactitude des réponses dans des contextes exigeants. Son intérêt est de situer les modèles au-delà des tâches de culture générale, en examinant leur capacité à mobiliser des savoirs experts.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | M-A-P, ByteDance Seed et 2077.AI |
| Capacités mesurées | Connaissances et raisonnement de niveau master/doctorat couvrant 285 disciplines académiques, y compris des domaines de niche |
| Modalité | Texte |
| Type de questions | QCM (choix multiple) de niveau études supérieures |
| Métrique d'évaluation | exactitude (accuracy) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 26 529 questions sur 285 disciplines (13 grands domaines) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 73,6 % | 19 mai 2026 | Auto-déclaré |
| 2 | Qwen3.6 Plus | Qwen | 71,6 % | 31 mars 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 71,4 % | 31 mai 2026 | Auto-déclaré |
| 4 | Seed 2.1 Pro | bytedance | 70,8 % | 24 juin 2026 | Auto-déclaré |
| 5 | Qwen3.5-397B-A17B | Qwen | 70,4 % | 16 février 2026 | Auto-déclaré |
| 6 | Seed 2.1 Turbo | bytedance | 67,4 % | 24 juin 2026 | Auto-déclaré |
| 7 | Qwen3.5-122B-A10B | Qwen | 67,1 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.6-27B | Qwen | 66,0 % | 21 avril 2026 | Auto-déclaré |
| 9 | Qwen3.5-27B | Qwen | 65,6 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3 Max | Qwen | 65,1 % | 9 février 2026 | Auto-déclaré |
| 11 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 64,9 % | 25 juillet 2025 | Auto-déclaré |
| 12 | Qwen3.6-35B-A3B | Qwen | 64,7 % | 16 avril 2026 | Auto-déclaré |
| 13 | Qwen3 VL 235B A22B Thinking | Qwen | 64,3 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3.5-35B-A3B | Qwen | 63,4 % | 24 février 2026 | Auto-déclaré |
| 15 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 62,6 % | 22 juillet 2025 | Auto-déclaré |
| 16 | Qwen3-Next-80B-A3B-Thinking | Qwen | 60,8 % | 10 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 235B A22B Instruct | Qwen | 60,4 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 32B Thinking | Qwen | 59,0 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3-Next-80B-A3B-Instruct | Qwen | 58,8 % | 10 septembre 2025 | Auto-déclaré |
| 20 | Qwen3.5-9B | Qwen | 58,2 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 34 modèles évalués, dont 29 de grands éditeurs. Score médian de l'ensemble : 59,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SuperGPQA indique une forte capacité à répondre correctement à des questions académiques complexes, dans des domaines variés et parfois très spécialisés. Le benchmark reste difficile dans la base observée: le meilleur modèle recensé, Qwen3.7 Max, atteint 74 %, tandis que le score médian est de 60 %, ce qui suggère une marge de progression importante et une saturation limitée à ce stade. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Sa portée est aussi circonscrite: questions à choix multiple, langue anglaise, cadre académique de niveau études supérieures. Comme pour tout benchmark public, l’exposition des questions peut créer un risque de contamination des données d’entraînement. Le classement met surtout en évidence les modèles les plus solides sur la connaissance experte et le raisonnement académique, sans résumer à lui seul leurs performances en production ou sur des tâches ouvertes.
Sources des scores : llm-stats.