SimpleQA Verified
Epoch: SimpleQA Verified est un benchmark de factualité créé par Google DeepMind pour évaluer les réponses factuelles courtes des modèles d’IA. Il se concentre sur la factualité paramétrique, c’est-à-dire les connaissances mémorisées par le modèle, et mesure la capacité à produire des…
Epoch: SimpleQA Verified est un benchmark de factualité créé par Google DeepMind pour évaluer les réponses factuelles courtes des modèles d’IA. Il se concentre sur la factualité paramétrique, c’est-à-dire les connaissances mémorisées par le modèle, et mesure la capacité à produire des réponses exactes sans hallucination.
Le benchmark reprend l’esprit de SimpleQA d’OpenAI tout en cherchant à en corriger certaines limites, notamment les étiquettes bruitées, les biais thématiques et les redondances. Il sert ainsi de test ciblé pour comparer la fiabilité factuelle des modèles dans un format simple de questions-réponses.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google DeepMind |
| Capacités mesurées | Factualité paramétrique en forme courte : connaissances factuelles mémorisées, mesure de la véracité et des hallucinations. |
| Modalité | Texte |
| Type de questions | Questions-réponses factuelles à forme courte (factoïdes) |
| Métrique d'évaluation | Score F1 (et exactitude) |
| Accès | Public |
| Licence | MIT |
| Langues | Anglais |
| Taille du jeu | 1 000 questions |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 3.1 Pro Preview | 77,3 % | 19 février 2026 | ✅ Mesuré | |
| 2 | Gemini 3 Pro | 72,9 % | 18 novembre 2025 | ✅ Mesuré | |
| 3 | Gemini 3.5 Flash | 68,4 % | 19 mai 2026 | ✅ Mesuré | |
| 4 | Claude Fable 5 | Anthropic | 68,3 % | 9 juin 2026 | ✅ Mesuré |
| 5 | Qwen3-Max-Instruct | Qwen | 67,5 % | 24 septembre 2025 | ✅ Mesuré |
| 6 | Gemini 3 Flash | 67,4 % | 17 décembre 2025 | ✅ Mesuré | |
| 7 | Muse Spark | Meta | 66,3 % | 8 avril 2026 | ✅ Mesuré |
| 8 | GPT-5.5 Pro | OpenAI | 64,5 % | 23 avril 2026 | ✅ Mesuré |
| 9 | GPT-5.5 | OpenAI | 63,1 % | 23 avril 2026 | ✅ Mesuré |
| 10 | Qwen3.7 Max | Qwen | 58,5 % | 19 mai 2026 | ✅ Mesuré |
| 11 | DeepSeek V4 Pro | DeepSeek | 57,0 % | 24 avril 2026 | ✅ Mesuré |
| 12 | Qwen 3.6 Max | Qwen | 56,9 % | 20 avril 2026 | ✅ Mesuré |
| 13 | Gemini 2.5 Pro | 56,0 % | 20 mai 2025 | ✅ Mesuré | |
| 14 | o3 | OpenAI | 53,0 % | 16 avril 2025 | ✅ Mesuré |
| 15 | Claude Opus 4.7 | Anthropic | 50,6 % | 12 mai 2026 | ✅ Mesuré |
| 16 | GPT-5 | OpenAI | 50,6 % | 7 août 2025 | ✅ Mesuré |
| 17 | Qwen3 235B A22B | Qwen | 50,1 % | 25 juillet 2025 | ✅ Mesuré |
| 18 | Qwen3.6 Plus | Qwen | 49,1 % | 31 mars 2026 | ✅ Mesuré |
| 19 | GPT-5.1 | OpenAI | 48,9 % | 13 novembre 2025 | ✅ Mesuré |
| 20 | Grok-4 | xAI | 47,9 % | 9 juillet 2025 | ✅ Mesuré |
Classement établi sur 52 modèles évalués, dont 45 de grands éditeurs. Score médian de l'ensemble : 39,1 %.
Notre analyse
Un score élevé sur Epoch: SimpleQA Verified indique une meilleure capacité à restituer des faits courts et vérifiables, avec moins d’erreurs ou d’hallucinations dans un cadre de questions-réponses factuelles. La présence de scores au moins partiellement mesurés par un tiers renforce la comparabilité du classement par rapport à de simples résultats auto-déclarés, même si la couverture exacte des vérifications peut varier selon les modèles.
- La portée reste volontairement étroite : le benchmark mesure la factualité paramétrique en anglais, pas le raisonnement long, l’usage d’outils, la robustesse conversationnelle ou la qualité rédactionnelle.
- Comme pour tout jeu public, la contamination potentielle et l’optimisation spécifique au benchmark doivent être prises en compte, même si le dédoublonnage, l’équilibrage thématique et la réconciliation des sources visent à améliorer la rigueur.
- Le classement montre un écart marqué entre le score médian de la base et le meilleur résultat observé, Gemini 3.1 Pro Preview, ce qui suggère une marge de progression importante sur la véracité factuelle courte.
Sources des scores : epoch.