Autres benchmarks

GPQA diamond

Epoch: GPQA diamond est un benchmark issu de GPQA, créé par D. Rein et al., centré sur des questions scientifiques à choix multiple de niveau doctorat. Son sous-ensemble Diamond correspond à la partie la plus sélective du jeu, avec des questions conçues pour résister aux réponses simples…

Il mesure la capacité des modèles à mobiliser une expertise avancée et un raisonnement robuste en biologie, chimie et physique. Dans une modelothèque, il sert à comparer la performance sur des tâches scientifiques exigeantes, au-delà de la simple restitution de connaissances générales.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	D. Rein et al.
Capacités mesurées	Évalue la capacité à répondre à des questions scientifiques de niveau doctorat nécessitant une expertise approfondie et un raisonnement robuste.
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Licence	CC-BY-4.0
Langues	anglais
Taille du jeu	198 questions (sous-ensemble GPQA Diamond)
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	OpenAI: GPT-5.4 Pro	OpenAI	94,6 %	5 mars 2026	✅ Mesuré
2	Gemini 3.1 Pro Preview	Google	94,1 %	19 février 2026	✅ Mesuré
3	GPT-5.5	OpenAI	94,0 %	23 avril 2026	✅ Mesuré
4	GPT-5.5 Pro	OpenAI	93,9 %	23 avril 2026	✅ Mesuré
5	GPT-5.4	OpenAI	93,3 %	5 mars 2026	✅ Mesuré
6	Gemini 3.5 Flash	Google	92,8 %	19 mai 2026	✅ Mesuré
7	Gemini 3 Pro	Google	92,6 %	18 novembre 2025	✅ Mesuré
8	GLM-5.2	Zhipu AI	91,9 %	16 juin 2026	✅ Mesuré
9	Qwen3.7 Max	Qwen	91,6 %	19 mai 2026	✅ Mesuré
10	GPT-5.2	OpenAI	91,4 %	11 décembre 2025	✅ Mesuré
11	Claude Opus 4.8	Anthropic	91,0 %	28 mai 2026	✅ Mesuré
12	Kimi K2.6	Moonshot AI	90,8 %	20 avril 2026	✅ Mesuré
13	Claude Opus 4.6	Anthropic	90,5 %	7 avril 2026	✅ Mesuré
14	Claude Opus 4.7	Anthropic	90,2 %	12 mai 2026	✅ Mesuré
15	Muse Spark	Meta	89,8 %	8 avril 2026	✅ Mesuré
16	DeepSeek V4 Pro	DeepSeek	89,6 %	24 avril 2026	✅ Mesuré
17	Kimi K2.7 Code	Moonshot AI	89,5 %	12 juin 2026	✅ Mesuré
18	Qwen 3.6 Max	Qwen	89,1 %	20 avril 2026	✅ Mesuré
19	Grok 4.3 Beta	xAI	88,8 %	17 avril 2026	✅ Mesuré
20	GLM-5	Zhipu AI	87,8 %	11 février 2026	✅ Mesuré

Classement établi sur 132 modèles évalués, dont 115 de grands éditeurs. Score médian de l'ensemble : 63,3 %.

Notre analyse

Un score élevé sur Epoch: GPQA diamond indique une forte capacité à traiter des QCM scientifiques complexes, où la réponse correcte suppose généralement une compréhension spécialisée et un raisonnement fiable. Le classement disponible dans la base, avec 132 modèles évalués, montre un écart important entre le score médian de 63% et le meilleur résultat, OpenAI: GPT-5.4 Pro à 95%, ce qui suggère une différenciation nette entre modèles sur ce type de tâche.

La fiabilité des scores est renforcée par le fait qu’ils sont au moins partiellement mesurés par un tiers, même si cela ne garantit pas une homogénéité parfaite entre toutes les évaluations. Plusieurs limites restent à prendre en compte : un score proche du maximum peut réduire la capacité du benchmark à départager les meilleurs modèles, une contamination des données d’entraînement ne peut jamais être totalement exclue, et la portée demeure concentrée sur des QCM scientifiques en anglais, principalement en biologie, chimie et physique.

Sources des scores : epoch.

GPQA diamond

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench