GPQA

GPQA est un benchmark conçu par David Rein et al. pour évaluer des capacités de raisonnement scientifique avancé. Il repose sur des QCM rédigés par des experts de domaine en biologie, chimie et physique, avec des questions pensées pour rester difficiles même en présence d’une recherche…

GPQA est un benchmark conçu par David Rein et al. pour évaluer des capacités de raisonnement scientifique avancé. Il repose sur des QCM rédigés par des experts de domaine en biologie, chimie et physique, avec des questions pensées pour rester difficiles même en présence d’une recherche web.

Dans l’évaluation des modèles d’IA, GPQA sert de test ciblé sur la maîtrise de connaissances expertes et la capacité à mobiliser un raisonnement rigoureux, au-delà de la simple restitution d’informations générales.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkDavid Rein et al.
Capacités mesuréesbiologie, chimie, généraliste, physique, raisonnement
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
LicenceCC-BY-4.0
Languesanglais
Taille du jeu448 questions
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Mythos PreviewAnthropic94,6 %Auto-déclaré
2Gemini 3.1 Pro PreviewGoogle94,3 %19 février 2026Auto-déclaré
3Claude Opus 4.7Anthropic94,2 %12 mai 2026Auto-déclaré
4Claude Opus 4.8Anthropic93,6 %28 mai 2026Auto-déclaré
5GPT-5.5OpenAI93,6 %23 avril 2026Auto-déclaré
6GPT-5.2 ProOpenAI93,2 %11 décembre 2025Auto-déclaré
7GPT-5.4OpenAI92,8 %5 mars 2026Auto-déclaré
8GPT-5.2OpenAI92,4 %11 décembre 2025Auto-déclaré
9Qwen3.7 MaxQwen92,4 %19 mai 2026Auto-déclaré
10Gemini 3 ProGoogle91,9 %18 novembre 2025Auto-déclaré
11Claude Opus 4.6Anthropic91,3 %7 avril 2026Auto-déclaré
12GLM-5.2Zhipu AI91,2 %16 juin 2026Auto-déclaré
13Kimi K2.6Moonshot AI90,5 %20 avril 2026Auto-déclaré
14Gemini 3 FlashGoogle90,4 %17 décembre 2025Auto-déclaré
15Qwen3.6 PlusQwen90,4 %31 mars 2026Auto-déclaré
16Qwen3.7-PlusQwen90,3 %31 mai 2026Auto-déclaré
17DeepSeek-V4-Pro-MaxDeepSeek90,1 %23 avril 2026Auto-déclaré
18Claude Sonnet 4.6Anthropic89,9 %17 février 2026Auto-déclaré
19Muse SparkMeta89,5 %8 avril 2026Auto-déclaré
20Seed 2.0 Probytedance88,9 %14 février 2026Auto-déclaré

Classement établi sur 213 modèles évalués, dont 181 de grands éditeurs. Score médian de l'ensemble : 71,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur GPQA indique une forte aptitude à traiter des problèmes scientifiques spécialisés, souvent formulés de manière à limiter les réponses obtenues par recherche directe. La difficulté du jeu est notable, puisque les experts titulaires d’un doctorat atteignent 65 % d’accuracy dans la description originale. Dans la base considérée, le score médian de 72 % et le meilleur résultat, Claude Mythos Preview (Anthropic) à 95 %, suggèrent que les modèles les plus avancés dépassent nettement ce repère humain déclaré, tout en rapprochant le haut du classement d’une zone de saturation. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des évaluations indépendantes et strictement contrôlées. Le caractère public du benchmark expose aussi à un risque de contamination. Enfin, GPQA ne couvre qu’un périmètre précis, en anglais, sous forme de QCM, centré sur trois disciplines scientifiques, et ne résume donc pas la compétence générale d’un modèle.


Sources des scores : llm-stats.