GPQA
GPQA est un benchmark conçu par David Rein et al. pour évaluer des capacités de raisonnement scientifique avancé. Il repose sur des QCM rédigés par des experts de domaine en biologie, chimie et physique, avec des questions pensées pour rester difficiles même en présence d’une recherche…
GPQA est un benchmark conçu par David Rein et al. pour évaluer des capacités de raisonnement scientifique avancé. Il repose sur des QCM rédigés par des experts de domaine en biologie, chimie et physique, avec des questions pensées pour rester difficiles même en présence d’une recherche web.
Dans l’évaluation des modèles d’IA, GPQA sert de test ciblé sur la maîtrise de connaissances expertes et la capacité à mobiliser un raisonnement rigoureux, au-delà de la simple restitution d’informations générales.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | David Rein et al. |
| Capacités mesurées | biologie, chimie, généraliste, physique, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | CC-BY-4.0 |
| Langues | anglais |
| Taille du jeu | 448 questions |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 94,6 % | — | Auto-déclaré |
| 2 | Gemini 3.1 Pro Preview | 94,3 % | 19 février 2026 | Auto-déclaré | |
| 3 | Claude Opus 4.7 | Anthropic | 94,2 % | 12 mai 2026 | Auto-déclaré |
| 4 | Claude Opus 4.8 | Anthropic | 93,6 % | 28 mai 2026 | Auto-déclaré |
| 5 | GPT-5.5 | OpenAI | 93,6 % | 23 avril 2026 | Auto-déclaré |
| 6 | GPT-5.2 Pro | OpenAI | 93,2 % | 11 décembre 2025 | Auto-déclaré |
| 7 | GPT-5.4 | OpenAI | 92,8 % | 5 mars 2026 | Auto-déclaré |
| 8 | GPT-5.2 | OpenAI | 92,4 % | 11 décembre 2025 | Auto-déclaré |
| 9 | Qwen3.7 Max | Qwen | 92,4 % | 19 mai 2026 | Auto-déclaré |
| 10 | Gemini 3 Pro | 91,9 % | 18 novembre 2025 | Auto-déclaré | |
| 11 | Claude Opus 4.6 | Anthropic | 91,3 % | 7 avril 2026 | Auto-déclaré |
| 12 | GLM-5.2 | Zhipu AI | 91,2 % | 16 juin 2026 | Auto-déclaré |
| 13 | Kimi K2.6 | Moonshot AI | 90,5 % | 20 avril 2026 | Auto-déclaré |
| 14 | Gemini 3 Flash | 90,4 % | 17 décembre 2025 | Auto-déclaré | |
| 15 | Qwen3.6 Plus | Qwen | 90,4 % | 31 mars 2026 | Auto-déclaré |
| 16 | Qwen3.7-Plus | Qwen | 90,3 % | 31 mai 2026 | Auto-déclaré |
| 17 | DeepSeek-V4-Pro-Max | DeepSeek | 90,1 % | 23 avril 2026 | Auto-déclaré |
| 18 | Claude Sonnet 4.6 | Anthropic | 89,9 % | 17 février 2026 | Auto-déclaré |
| 19 | Muse Spark | Meta | 89,5 % | 8 avril 2026 | Auto-déclaré |
| 20 | Seed 2.0 Pro | bytedance | 88,9 % | 14 février 2026 | Auto-déclaré |
Classement établi sur 213 modèles évalués, dont 181 de grands éditeurs. Score médian de l'ensemble : 71,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur GPQA indique une forte aptitude à traiter des problèmes scientifiques spécialisés, souvent formulés de manière à limiter les réponses obtenues par recherche directe. La difficulté du jeu est notable, puisque les experts titulaires d’un doctorat atteignent 65 % d’accuracy dans la description originale. Dans la base considérée, le score médian de 72 % et le meilleur résultat, Claude Mythos Preview (Anthropic) à 95 %, suggèrent que les modèles les plus avancés dépassent nettement ce repère humain déclaré, tout en rapprochant le haut du classement d’une zone de saturation. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des évaluations indépendantes et strictement contrôlées. Le caractère public du benchmark expose aussi à un risque de contamination. Enfin, GPQA ne couvre qu’un périmètre précis, en anglais, sous forme de QCM, centré sur trois disciplines scientifiques, et ne résume donc pas la compétence générale d’un modèle.
Sources des scores : llm-stats.