SimpleQA Verified

Epoch: SimpleQA Verified est un benchmark de factualité créé par Google DeepMind pour évaluer les réponses factuelles courtes des modèles d’IA. Il se concentre sur la factualité paramétrique, c’est-à-dire les connaissances mémorisées par le modèle, et mesure la capacité à produire des…

Epoch: SimpleQA Verified est un benchmark de factualité créé par Google DeepMind pour évaluer les réponses factuelles courtes des modèles d’IA. Il se concentre sur la factualité paramétrique, c’est-à-dire les connaissances mémorisées par le modèle, et mesure la capacité à produire des réponses exactes sans hallucination.

Le benchmark reprend l’esprit de SimpleQA d’OpenAI tout en cherchant à en corriger certaines limites, notamment les étiquettes bruitées, les biais thématiques et les redondances. Il sert ainsi de test ciblé pour comparer la fiabilité factuelle des modèles dans un format simple de questions-réponses.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle DeepMind
Capacités mesuréesFactualité paramétrique en forme courte : connaissances factuelles mémorisées, mesure de la véracité et des hallucinations.
ModalitéTexte
Type de questionsQuestions-réponses factuelles à forme courte (factoïdes)
Métrique d'évaluationScore F1 (et exactitude)
AccèsPublic
LicenceMIT
LanguesAnglais
Taille du jeu1 000 questions
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 3.1 Pro PreviewGoogle77,3 %19 février 2026✅ Mesuré
2Gemini 3 ProGoogle72,9 %18 novembre 2025✅ Mesuré
3Gemini 3.5 FlashGoogle68,4 %19 mai 2026✅ Mesuré
4Claude Fable 5Anthropic68,3 %9 juin 2026✅ Mesuré
5Qwen3-Max-InstructQwen67,5 %24 septembre 2025✅ Mesuré
6Gemini 3 FlashGoogle67,4 %17 décembre 2025✅ Mesuré
7Muse SparkMeta66,3 %8 avril 2026✅ Mesuré
8GPT-5.5 ProOpenAI64,5 %23 avril 2026✅ Mesuré
9GPT-5.5OpenAI63,1 %23 avril 2026✅ Mesuré
10Qwen3.7 MaxQwen58,5 %19 mai 2026✅ Mesuré
11DeepSeek V4 ProDeepSeek57,0 %24 avril 2026✅ Mesuré
12Qwen 3.6 MaxQwen56,9 %20 avril 2026✅ Mesuré
13Gemini 2.5 ProGoogle56,0 %20 mai 2025✅ Mesuré
14o3OpenAI53,0 %16 avril 2025✅ Mesuré
15Claude Opus 4.7Anthropic50,6 %12 mai 2026✅ Mesuré
16GPT-5OpenAI50,6 %7 août 2025✅ Mesuré
17Qwen3 235B A22BQwen50,1 %25 juillet 2025✅ Mesuré
18Qwen3.6 PlusQwen49,1 %31 mars 2026✅ Mesuré
19GPT-5.1OpenAI48,9 %13 novembre 2025✅ Mesuré
20Grok-4xAI47,9 %9 juillet 2025✅ Mesuré

Classement établi sur 52 modèles évalués, dont 45 de grands éditeurs. Score médian de l'ensemble : 39,1 %.

Notre analyse

Un score élevé sur Epoch: SimpleQA Verified indique une meilleure capacité à restituer des faits courts et vérifiables, avec moins d’erreurs ou d’hallucinations dans un cadre de questions-réponses factuelles. La présence de scores au moins partiellement mesurés par un tiers renforce la comparabilité du classement par rapport à de simples résultats auto-déclarés, même si la couverture exacte des vérifications peut varier selon les modèles.

  • La portée reste volontairement étroite : le benchmark mesure la factualité paramétrique en anglais, pas le raisonnement long, l’usage d’outils, la robustesse conversationnelle ou la qualité rédactionnelle.
  • Comme pour tout jeu public, la contamination potentielle et l’optimisation spécifique au benchmark doivent être prises en compte, même si le dédoublonnage, l’équilibrage thématique et la réconciliation des sources visent à améliorer la rigueur.
  • Le classement montre un écart marqué entre le score médian de la base et le meilleur résultat observé, Gemini 3.1 Pro Preview, ce qui suggère une marge de progression importante sur la véracité factuelle courte.

Sources des scores : epoch.