SimpleQA
SimpleQA est un benchmark de factualité développé par OpenAI pour évaluer la précision des réponses courtes produites par les grands modèles de langage. Il repose sur des questions ouvertes, factuelles et précises, conçues pour appeler une réponse unique et incontestable.
SimpleQA est un benchmark de factualité développé par OpenAI pour évaluer la précision des réponses courtes produites par les grands modèles de langage. Il repose sur des questions ouvertes, factuelles et précises, conçues pour appeler une réponse unique et incontestable.
Son intérêt est de mesurer non seulement la capacité à restituer un fait correct, mais aussi la calibration du modèle, c’est-à-dire sa capacité à reconnaître ce qu’il sait ou ne sait pas. Il sert ainsi de repère ciblé pour comparer la fiabilité factuelle des modèles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | factualité, généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 4 326 questions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek-V3.2-Exp | DeepSeek | 97,1 % | 29 septembre 2025 | Auto-déclaré |
| 2 | Grok 4 Fast | xAI | 95,0 % | 28 août 2025 | Auto-déclaré |
| 3 | DeepSeek-V3.1 | DeepSeek | 93,4 % | 10 janvier 2025 | Auto-déclaré |
| 4 | DeepSeek-R1-0528 | DeepSeek | 92,3 % | 28 mai 2025 | Auto-déclaré |
| 5 | ERNIE 5.0 | Baidu | 75,0 % | 22 janvier 2026 | Auto-déclaré |
| 6 | Gemini 3 Pro | 72,1 % | 18 novembre 2025 | Auto-déclaré | |
| 7 | Gemini 3 Flash | 68,7 % | 17 décembre 2025 | Auto-déclaré | |
| 8 | GPT-5.4 | OpenAI | 62,5 % | 5 mars 2026 | Auto-déclaré |
| 9 | DeepSeek-V4-Pro-Max | DeepSeek | 57,9 % | 23 avril 2026 | Auto-déclaré |
| 10 | Qwen3 VL 32B Thinking | Qwen | 55,4 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 54,3 % | 22 juillet 2025 | Auto-déclaré |
| 12 | Gemini 2.5 Pro Preview 06-05 | 54,0 % | 5 juin 2025 | Auto-déclaré | |
| 13 | Qwen3 VL 235B A22B Instruct | Qwen | 51,9 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Gemini 2.5 Pro | 50,8 % | 20 mai 2025 | Auto-déclaré | |
| 15 | Qwen3 VL 8B Thinking | Qwen | 49,6 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 4B Instruct | Qwen | 48,0 % | 22 septembre 2025 | Auto-déclaré |
| 17 | o1 | OpenAI | 47,0 % | 17 décembre 2024 | Auto-déclaré |
| 18 | Qwen3 VL 235B A22B Thinking | Qwen | 44,4 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Gemini 3.1 Flash-Lite | 43,3 % | 3 mars 2026 | Auto-déclaré | |
| 20 | o1-preview | OpenAI | 42,4 % | 12 septembre 2024 | Auto-déclaré |
Classement établi sur 45 modèles évalués, dont 39 de grands éditeurs. Score médian de l'ensemble : 34,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SimpleQA indique une forte aptitude à répondre correctement à des questions factuelles courtes, avec moins d’erreurs sur des faits précis. Le classement disponible dans la base montre un écart marqué entre le score médian de l’ensemble et le meilleur résultat, DeepSeek-V3.2-Exp atteignant un niveau très supérieur à la médiane. Cette hiérarchie suggère que la factualité courte reste un facteur discriminant entre modèles, même sur un benchmark ciblé.
L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement reproduites et contrôlées. Le caractère public du jeu peut aussi créer un risque de contamination des données d’entraînement ou d’optimisation. Enfin, SimpleQA mesure une portée spécifique : des questions en anglais, ouvertes, à réponse courte et factuelle. Il ne renseigne pas directement sur le raisonnement long, les capacités multilingues, la robustesse conversationnelle ou la gestion de tâches complexes. Des scores très élevés peuvent aussi réduire progressivement le pouvoir discriminant au sommet du classement.
Sources des scores : llm-stats.