GPQA diamond
Epoch: GPQA diamond est un benchmark issu de GPQA, créé par D. Rein et al., centré sur des questions scientifiques à choix multiple de niveau doctorat. Son sous-ensemble Diamond correspond à la partie la plus sélective du jeu, avec des questions conçues pour résister aux réponses simples…
Epoch: GPQA diamond est un benchmark issu de GPQA, créé par D. Rein et al., centré sur des questions scientifiques à choix multiple de niveau doctorat. Son sous-ensemble Diamond correspond à la partie la plus sélective du jeu, avec des questions conçues pour résister aux réponses simples par recherche web.
Il mesure la capacité des modèles à mobiliser une expertise avancée et un raisonnement robuste en biologie, chimie et physique. Dans une modelothèque, il sert à comparer la performance sur des tâches scientifiques exigeantes, au-delà de la simple restitution de connaissances générales.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | D. Rein et al. |
| Capacités mesurées | Évalue la capacité à répondre à des questions scientifiques de niveau doctorat nécessitant une expertise approfondie et un raisonnement robuste. |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | CC-BY-4.0 |
| Langues | anglais |
| Taille du jeu | 198 questions (sous-ensemble GPQA Diamond) |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | OpenAI: GPT-5.4 Pro | OpenAI | 94,6 % | 5 mars 2026 | ✅ Mesuré |
| 2 | Gemini 3.1 Pro Preview | 94,1 % | 19 février 2026 | ✅ Mesuré | |
| 3 | GPT-5.5 | OpenAI | 94,0 % | 23 avril 2026 | ✅ Mesuré |
| 4 | GPT-5.5 Pro | OpenAI | 93,9 % | 23 avril 2026 | ✅ Mesuré |
| 5 | GPT-5.4 | OpenAI | 93,3 % | 5 mars 2026 | ✅ Mesuré |
| 6 | Gemini 3.5 Flash | 92,8 % | 19 mai 2026 | ✅ Mesuré | |
| 7 | Gemini 3 Pro | 92,6 % | 18 novembre 2025 | ✅ Mesuré | |
| 8 | GLM-5.2 | Zhipu AI | 91,9 % | 16 juin 2026 | ✅ Mesuré |
| 9 | Qwen3.7 Max | Qwen | 91,6 % | 19 mai 2026 | ✅ Mesuré |
| 10 | GPT-5.2 | OpenAI | 91,4 % | 11 décembre 2025 | ✅ Mesuré |
| 11 | Claude Opus 4.8 | Anthropic | 91,0 % | 28 mai 2026 | ✅ Mesuré |
| 12 | Kimi K2.6 | Moonshot AI | 90,8 % | 20 avril 2026 | ✅ Mesuré |
| 13 | Claude Opus 4.6 | Anthropic | 90,5 % | 7 avril 2026 | ✅ Mesuré |
| 14 | Claude Opus 4.7 | Anthropic | 90,2 % | 12 mai 2026 | ✅ Mesuré |
| 15 | Muse Spark | Meta | 89,8 % | 8 avril 2026 | ✅ Mesuré |
| 16 | DeepSeek V4 Pro | DeepSeek | 89,6 % | 24 avril 2026 | ✅ Mesuré |
| 17 | Kimi K2.7 Code | Moonshot AI | 89,5 % | 12 juin 2026 | ✅ Mesuré |
| 18 | Qwen 3.6 Max | Qwen | 89,1 % | 20 avril 2026 | ✅ Mesuré |
| 19 | Grok 4.3 Beta | xAI | 88,8 % | 17 avril 2026 | ✅ Mesuré |
| 20 | GLM-5 | Zhipu AI | 87,8 % | 11 février 2026 | ✅ Mesuré |
Classement établi sur 132 modèles évalués, dont 115 de grands éditeurs. Score médian de l'ensemble : 63,3 %.
Notre analyse
Un score élevé sur Epoch: GPQA diamond indique une forte capacité à traiter des QCM scientifiques complexes, où la réponse correcte suppose généralement une compréhension spécialisée et un raisonnement fiable. Le classement disponible dans la base, avec 132 modèles évalués, montre un écart important entre le score médian de 63% et le meilleur résultat, OpenAI: GPT-5.4 Pro à 95%, ce qui suggère une différenciation nette entre modèles sur ce type de tâche.
La fiabilité des scores est renforcée par le fait qu’ils sont au moins partiellement mesurés par un tiers, même si cela ne garantit pas une homogénéité parfaite entre toutes les évaluations. Plusieurs limites restent à prendre en compte : un score proche du maximum peut réduire la capacité du benchmark à départager les meilleurs modèles, une contamination des données d’entraînement ne peut jamais être totalement exclue, et la portée demeure concentrée sur des QCM scientifiques en anglais, principalement en biologie, chimie et physique.
Sources des scores : epoch.