SimpleQA

SimpleQA est un benchmark de factualité développé par OpenAI pour évaluer la précision des réponses courtes produites par les grands modèles de langage. Il repose sur des questions ouvertes, factuelles et précises, conçues pour appeler une réponse unique et incontestable.

SimpleQA est un benchmark de factualité développé par OpenAI pour évaluer la précision des réponses courtes produites par les grands modèles de langage. Il repose sur des questions ouvertes, factuelles et précises, conçues pour appeler une réponse unique et incontestable.

Son intérêt est de mesurer non seulement la capacité à restituer un fait correct, mais aussi la calibration du modèle, c’est-à-dire sa capacité à reconnaître ce qu’il sait ou ne sait pas. Il sert ainsi de repère ciblé pour comparer la fiabilité factuelle des modèles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesfactualité, généraliste, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu4 326 questions
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek-V3.2-ExpDeepSeek97,1 %29 septembre 2025Auto-déclaré
2Grok 4 FastxAI95,0 %28 août 2025Auto-déclaré
3DeepSeek-V3.1DeepSeek93,4 %10 janvier 2025Auto-déclaré
4DeepSeek-R1-0528DeepSeek92,3 %28 mai 2025Auto-déclaré
5ERNIE 5.0Baidu75,0 %22 janvier 2026Auto-déclaré
6Gemini 3 ProGoogle72,1 %18 novembre 2025Auto-déclaré
7Gemini 3 FlashGoogle68,7 %17 décembre 2025Auto-déclaré
8GPT-5.4OpenAI62,5 %5 mars 2026Auto-déclaré
9DeepSeek-V4-Pro-MaxDeepSeek57,9 %23 avril 2026Auto-déclaré
10Qwen3 VL 32B ThinkingQwen55,4 %22 septembre 2025Auto-déclaré
11Qwen3-235B-A22B-Instruct-2507Qwen54,3 %22 juillet 2025Auto-déclaré
12Gemini 2.5 Pro Preview 06-05Google54,0 %5 juin 2025Auto-déclaré
13Qwen3 VL 235B A22B InstructQwen51,9 %22 septembre 2025Auto-déclaré
14Gemini 2.5 ProGoogle50,8 %20 mai 2025Auto-déclaré
15Qwen3 VL 8B ThinkingQwen49,6 %22 septembre 2025Auto-déclaré
16Qwen3 VL 4B InstructQwen48,0 %22 septembre 2025Auto-déclaré
17o1OpenAI47,0 %17 décembre 2024Auto-déclaré
18Qwen3 VL 235B A22B ThinkingQwen44,4 %22 septembre 2025Auto-déclaré
19Gemini 3.1 Flash-LiteGoogle43,3 %3 mars 2026Auto-déclaré
20o1-previewOpenAI42,4 %12 septembre 2024Auto-déclaré

Classement établi sur 45 modèles évalués, dont 39 de grands éditeurs. Score médian de l'ensemble : 34,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SimpleQA indique une forte aptitude à répondre correctement à des questions factuelles courtes, avec moins d’erreurs sur des faits précis. Le classement disponible dans la base montre un écart marqué entre le score médian de l’ensemble et le meilleur résultat, DeepSeek-V3.2-Exp atteignant un niveau très supérieur à la médiane. Cette hiérarchie suggère que la factualité courte reste un facteur discriminant entre modèles, même sur un benchmark ciblé.

L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement reproduites et contrôlées. Le caractère public du jeu peut aussi créer un risque de contamination des données d’entraînement ou d’optimisation. Enfin, SimpleQA mesure une portée spécifique : des questions en anglais, ouvertes, à réponse courte et factuelle. Il ne renseigne pas directement sur le raisonnement long, les capacités multilingues, la robustesse conversationnelle ou la gestion de tâches complexes. Des scores très élevés peuvent aussi réduire progressivement le pouvoir discriminant au sommet du classement.


Sources des scores : llm-stats.