Connaissances & sciences

GPQA

GPQA est un benchmark conçu par David Rein et al. pour évaluer des capacités de raisonnement scientifique avancé. Il repose sur des QCM rédigés par des experts de domaine en biologie, chimie et physique, avec des questions pensées pour rester difficiles même en présence d’une recherche…

Dans l’évaluation des modèles d’IA, GPQA sert de test ciblé sur la maîtrise de connaissances expertes et la capacité à mobiliser un raisonnement rigoureux, au-delà de la simple restitution d’informations générales.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	David Rein et al.
Capacités mesurées	biologie, chimie, généraliste, physique, raisonnement
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Licence	CC-BY-4.0
Langues	anglais
Taille du jeu	448 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Mythos Preview	Anthropic	94,6 %	—	Auto-déclaré
2	Gemini 3.1 Pro Preview	Google	94,3 %	19 février 2026	Auto-déclaré
3	Claude Opus 4.7	Anthropic	94,2 %	12 mai 2026	Auto-déclaré
4	Claude Opus 4.8	Anthropic	93,6 %	28 mai 2026	Auto-déclaré
5	GPT-5.5	OpenAI	93,6 %	23 avril 2026	Auto-déclaré
6	GPT-5.2 Pro	OpenAI	93,2 %	11 décembre 2025	Auto-déclaré
7	GPT-5.4	OpenAI	92,8 %	5 mars 2026	Auto-déclaré
8	GPT-5.2	OpenAI	92,4 %	11 décembre 2025	Auto-déclaré
9	Qwen3.7 Max	Qwen	92,4 %	19 mai 2026	Auto-déclaré
10	Gemini 3 Pro	Google	91,9 %	18 novembre 2025	Auto-déclaré
11	Claude Opus 4.6	Anthropic	91,3 %	7 avril 2026	Auto-déclaré
12	GLM-5.2	Zhipu AI	91,2 %	16 juin 2026	Auto-déclaré
13	Kimi K2.6	Moonshot AI	90,5 %	20 avril 2026	Auto-déclaré
14	Gemini 3 Flash	Google	90,4 %	17 décembre 2025	Auto-déclaré
15	Qwen3.6 Plus	Qwen	90,4 %	31 mars 2026	Auto-déclaré
16	Qwen3.7-Plus	Qwen	90,3 %	31 mai 2026	Auto-déclaré
17	DeepSeek-V4-Pro-Max	DeepSeek	90,1 %	23 avril 2026	Auto-déclaré
18	Claude Sonnet 4.6	Anthropic	89,9 %	17 février 2026	Auto-déclaré
19	Muse Spark	Meta	89,5 %	8 avril 2026	Auto-déclaré
20	Seed 2.0 Pro	bytedance	88,9 %	14 février 2026	Auto-déclaré

Classement établi sur 213 modèles évalués, dont 181 de grands éditeurs. Score médian de l'ensemble : 71,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur GPQA indique une forte aptitude à traiter des problèmes scientifiques spécialisés, souvent formulés de manière à limiter les réponses obtenues par recherche directe. La difficulté du jeu est notable, puisque les experts titulaires d’un doctorat atteignent 65 % d’accuracy dans la description originale. Dans la base considérée, le score médian de 72 % et le meilleur résultat, Claude Mythos Preview (Anthropic) à 95 %, suggèrent que les modèles les plus avancés dépassent nettement ce repère humain déclaré, tout en rapprochant le haut du classement d’une zone de saturation. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des évaluations indépendantes et strictement contrôlées. Le caractère public du benchmark expose aussi à un risque de contamination. Enfin, GPQA ne couvre qu’un périmètre précis, en anglais, sous forme de QCM, centré sur trois disciplines scientifiques, et ne résume donc pas la compétence générale d’un modèle.

Sources des scores : llm-stats.

GPQA

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23