Autres benchmarks

SimpleQA Verified

Epoch: SimpleQA Verified est un benchmark de factualité créé par Google DeepMind pour évaluer les réponses factuelles courtes des modèles d’IA. Il se concentre sur la factualité paramétrique, c’est-à-dire les connaissances mémorisées par le modèle, et mesure la capacité à produire des…

Le benchmark reprend l’esprit de SimpleQA d’OpenAI tout en cherchant à en corriger certaines limites, notamment les étiquettes bruitées, les biais thématiques et les redondances. Il sert ainsi de test ciblé pour comparer la fiabilité factuelle des modèles dans un format simple de questions-réponses.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google DeepMind
Capacités mesurées	Factualité paramétrique en forme courte : connaissances factuelles mémorisées, mesure de la véracité et des hallucinations.
Modalité	Texte
Type de questions	Questions-réponses factuelles à forme courte (factoïdes)
Métrique d'évaluation	Score F1 (et exactitude)
Accès	Public
Licence	MIT
Langues	Anglais
Taille du jeu	1 000 questions
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 3.1 Pro Preview	Google	77,3 %	19 février 2026	✅ Mesuré
2	Gemini 3 Pro	Google	72,9 %	18 novembre 2025	✅ Mesuré
3	Gemini 3.5 Flash	Google	68,4 %	19 mai 2026	✅ Mesuré
4	Claude Fable 5	Anthropic	68,3 %	9 juin 2026	✅ Mesuré
5	Qwen3-Max-Instruct	Qwen	67,5 %	24 septembre 2025	✅ Mesuré
6	Gemini 3 Flash	Google	67,4 %	17 décembre 2025	✅ Mesuré
7	Muse Spark	Meta	66,3 %	8 avril 2026	✅ Mesuré
8	GPT-5.5 Pro	OpenAI	64,5 %	23 avril 2026	✅ Mesuré
9	GPT-5.5	OpenAI	63,1 %	23 avril 2026	✅ Mesuré
10	Qwen3.7 Max	Qwen	58,5 %	19 mai 2026	✅ Mesuré
11	DeepSeek V4 Pro	DeepSeek	57,0 %	24 avril 2026	✅ Mesuré
12	Qwen 3.6 Max	Qwen	56,9 %	20 avril 2026	✅ Mesuré
13	Gemini 2.5 Pro	Google	56,0 %	20 mai 2025	✅ Mesuré
14	o3	OpenAI	53,0 %	16 avril 2025	✅ Mesuré
15	Claude Opus 4.7	Anthropic	50,6 %	12 mai 2026	✅ Mesuré
16	GPT-5	OpenAI	50,6 %	7 août 2025	✅ Mesuré
17	Qwen3 235B A22B	Qwen	50,1 %	25 juillet 2025	✅ Mesuré
18	Qwen3.6 Plus	Qwen	49,1 %	31 mars 2026	✅ Mesuré
19	GPT-5.1	OpenAI	48,9 %	13 novembre 2025	✅ Mesuré
20	Grok-4	xAI	47,9 %	9 juillet 2025	✅ Mesuré

Classement établi sur 52 modèles évalués, dont 45 de grands éditeurs. Score médian de l'ensemble : 39,1 %.

Notre analyse

Un score élevé sur Epoch: SimpleQA Verified indique une meilleure capacité à restituer des faits courts et vérifiables, avec moins d’erreurs ou d’hallucinations dans un cadre de questions-réponses factuelles. La présence de scores au moins partiellement mesurés par un tiers renforce la comparabilité du classement par rapport à de simples résultats auto-déclarés, même si la couverture exacte des vérifications peut varier selon les modèles.

La portée reste volontairement étroite : le benchmark mesure la factualité paramétrique en anglais, pas le raisonnement long, l’usage d’outils, la robustesse conversationnelle ou la qualité rédactionnelle.
Comme pour tout jeu public, la contamination potentielle et l’optimisation spécifique au benchmark doivent être prises en compte, même si le dédoublonnage, l’équilibrage thématique et la réconciliation des sources visent à améliorer la rigueur.
Le classement montre un écart marqué entre le score médian de la base et le meilleur résultat observé, Gemini 3.1 Pro Preview, ce qui suggère une marge de progression importante sur la véracité factuelle courte.

Sources des scores : epoch.

SimpleQA Verified

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench