Sûreté & factualité

SimpleQA

SimpleQA est un benchmark de factualité développé par OpenAI pour évaluer la précision des réponses courtes produites par les grands modèles de langage. Il repose sur des questions ouvertes, factuelles et précises, conçues pour appeler une réponse unique et incontestable.

Son intérêt est de mesurer non seulement la capacité à restituer un fait correct, mais aussi la calibration du modèle, c’est-à-dire sa capacité à reconnaître ce qu’il sait ou ne sait pas. Il sert ainsi de repère ciblé pour comparer la fiabilité factuelle des modèles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	factualité, généraliste, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	4 326 questions
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek-V3.2-Exp	DeepSeek	97,1 %	29 septembre 2025	Auto-déclaré
2	Grok 4 Fast	xAI	95,0 %	28 août 2025	Auto-déclaré
3	DeepSeek-V3.1	DeepSeek	93,4 %	10 janvier 2025	Auto-déclaré
4	DeepSeek-R1-0528	DeepSeek	92,3 %	28 mai 2025	Auto-déclaré
5	ERNIE 5.0	Baidu	75,0 %	22 janvier 2026	Auto-déclaré
6	Gemini 3 Pro	Google	72,1 %	18 novembre 2025	Auto-déclaré
7	Gemini 3 Flash	Google	68,7 %	17 décembre 2025	Auto-déclaré
8	GPT-5.4	OpenAI	62,5 %	5 mars 2026	Auto-déclaré
9	DeepSeek-V4-Pro-Max	DeepSeek	57,9 %	23 avril 2026	Auto-déclaré
10	Qwen3 VL 32B Thinking	Qwen	55,4 %	22 septembre 2025	Auto-déclaré
11	Qwen3-235B-A22B-Instruct-2507	Qwen	54,3 %	22 juillet 2025	Auto-déclaré
12	Gemini 2.5 Pro Preview 06-05	Google	54,0 %	5 juin 2025	Auto-déclaré
13	Qwen3 VL 235B A22B Instruct	Qwen	51,9 %	22 septembre 2025	Auto-déclaré
14	Gemini 2.5 Pro	Google	50,8 %	20 mai 2025	Auto-déclaré
15	Qwen3 VL 8B Thinking	Qwen	49,6 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 4B Instruct	Qwen	48,0 %	22 septembre 2025	Auto-déclaré
17	o1	OpenAI	47,0 %	17 décembre 2024	Auto-déclaré
18	Qwen3 VL 235B A22B Thinking	Qwen	44,4 %	22 septembre 2025	Auto-déclaré
19	Gemini 3.1 Flash-Lite	Google	43,3 %	3 mars 2026	Auto-déclaré
20	o1-preview	OpenAI	42,4 %	12 septembre 2024	Auto-déclaré

Classement établi sur 45 modèles évalués, dont 39 de grands éditeurs. Score médian de l'ensemble : 34,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SimpleQA indique une forte aptitude à répondre correctement à des questions factuelles courtes, avec moins d’erreurs sur des faits précis. Le classement disponible dans la base montre un écart marqué entre le score médian de l’ensemble et le meilleur résultat, DeepSeek-V3.2-Exp atteignant un niveau très supérieur à la médiane. Cette hiérarchie suggère que la factualité courte reste un facteur discriminant entre modèles, même sur un benchmark ciblé.

L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement reproduites et contrôlées. Le caractère public du jeu peut aussi créer un risque de contamination des données d’entraînement ou d’optimisation. Enfin, SimpleQA mesure une portée spécifique : des questions en anglais, ouvertes, à réponse courte et factuelle. Il ne renseigne pas directement sur le raisonnement long, les capacités multilingues, la robustesse conversationnelle ou la gestion de tâches complexes. Des scores très élevés peuvent aussi réduire progressivement le pouvoir discriminant au sommet du classement.

Sources des scores : llm-stats.

SimpleQA

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23