GPQA diamond

Epoch: GPQA diamond est un benchmark issu de GPQA, créé par D. Rein et al., centré sur des questions scientifiques à choix multiple de niveau doctorat. Son sous-ensemble Diamond correspond à la partie la plus sélective du jeu, avec des questions conçues pour résister aux réponses simples…

Epoch: GPQA diamond est un benchmark issu de GPQA, créé par D. Rein et al., centré sur des questions scientifiques à choix multiple de niveau doctorat. Son sous-ensemble Diamond correspond à la partie la plus sélective du jeu, avec des questions conçues pour résister aux réponses simples par recherche web.

Il mesure la capacité des modèles à mobiliser une expertise avancée et un raisonnement robuste en biologie, chimie et physique. Dans une modelothèque, il sert à comparer la performance sur des tâches scientifiques exigeantes, au-delà de la simple restitution de connaissances générales.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkD. Rein et al.
Capacités mesuréesÉvalue la capacité à répondre à des questions scientifiques de niveau doctorat nécessitant une expertise approfondie et un raisonnement robuste.
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
LicenceCC-BY-4.0
Languesanglais
Taille du jeu198 questions (sous-ensemble GPQA Diamond)
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1OpenAI: GPT-5.4 ProOpenAI94,6 %5 mars 2026✅ Mesuré
2Gemini 3.1 Pro PreviewGoogle94,1 %19 février 2026✅ Mesuré
3GPT-5.5OpenAI94,0 %23 avril 2026✅ Mesuré
4GPT-5.5 ProOpenAI93,9 %23 avril 2026✅ Mesuré
5GPT-5.4OpenAI93,3 %5 mars 2026✅ Mesuré
6Gemini 3.5 FlashGoogle92,8 %19 mai 2026✅ Mesuré
7Gemini 3 ProGoogle92,6 %18 novembre 2025✅ Mesuré
8GLM-5.2Zhipu AI91,9 %16 juin 2026✅ Mesuré
9Qwen3.7 MaxQwen91,6 %19 mai 2026✅ Mesuré
10GPT-5.2OpenAI91,4 %11 décembre 2025✅ Mesuré
11Claude Opus 4.8Anthropic91,0 %28 mai 2026✅ Mesuré
12Kimi K2.6Moonshot AI90,8 %20 avril 2026✅ Mesuré
13Claude Opus 4.6Anthropic90,5 %7 avril 2026✅ Mesuré
14Claude Opus 4.7Anthropic90,2 %12 mai 2026✅ Mesuré
15Muse SparkMeta89,8 %8 avril 2026✅ Mesuré
16DeepSeek V4 ProDeepSeek89,6 %24 avril 2026✅ Mesuré
17Kimi K2.7 CodeMoonshot AI89,5 %12 juin 2026✅ Mesuré
18Qwen 3.6 MaxQwen89,1 %20 avril 2026✅ Mesuré
19Grok 4.3 BetaxAI88,8 %17 avril 2026✅ Mesuré
20GLM-5Zhipu AI87,8 %11 février 2026✅ Mesuré

Classement établi sur 132 modèles évalués, dont 115 de grands éditeurs. Score médian de l'ensemble : 63,3 %.

Notre analyse

Un score élevé sur Epoch: GPQA diamond indique une forte capacité à traiter des QCM scientifiques complexes, où la réponse correcte suppose généralement une compréhension spécialisée et un raisonnement fiable. Le classement disponible dans la base, avec 132 modèles évalués, montre un écart important entre le score médian de 63% et le meilleur résultat, OpenAI: GPT-5.4 Pro à 95%, ce qui suggère une différenciation nette entre modèles sur ce type de tâche.

La fiabilité des scores est renforcée par le fait qu’ils sont au moins partiellement mesurés par un tiers, même si cela ne garantit pas une homogénéité parfaite entre toutes les évaluations. Plusieurs limites restent à prendre en compte : un score proche du maximum peut réduire la capacité du benchmark à départager les meilleurs modèles, une contamination des données d’entraînement ne peut jamais être totalement exclue, et la portée demeure concentrée sur des QCM scientifiques en anglais, principalement en biologie, chimie et physique.


Sources des scores : epoch.