Connaissances & sciences

TruthfulQA

TruthfulQA est un benchmark conçu pour évaluer la véracité des réponses produites par les modèles de langage. Créé par Stephanie Lin, Jacob Hilton et Owain Evans, il cible des questions susceptibles de déclencher des réponses fausses, notamment lorsqu’elles reposent sur des idées reçues,…

Son rôle est de tester la capacité d’un modèle à résister à la reproduction d’erreurs présentes dans les textes humains. Il occupe ainsi une place utile dans l’évaluation des modèles, en complément des tests de connaissances ou de raisonnement.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Stephanie Lin, Jacob Hilton et Owain Evans
Capacités mesurées	finance, généraliste, santé, juridique, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte, avec variantes QCM
Métrique d'évaluation	accuracy / taux de réponses véridiques et informatives
Accès	Public
Licence	Apache-2.0
Langues	anglais
Taille du jeu	817 questions
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 18)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MAI-Thinking-1	Microsoft	88,0 %	2 juin 2026	Auto-déclaré
2	Phi-3.5-MoE-instruct	Microsoft	77,5 %	23 août 2024	Auto-déclaré
3	Granite 3.3 8B Instruct	IBM	66,9 %	16 avril 2025	Auto-déclaré
4	Phi 4 Mini	Microsoft	66,4 %	30 avril 2025	Auto-déclaré
5	Phi-3.5-mini-instruct	Microsoft	64,0 %	23 août 2024	Auto-déclaré
6	Hermes 3 70B	Nous Research	63,3 %	15 août 2024	Auto-déclaré
7	Llama 3.1 Nemotron 70B Instruct	NVIDIA	58,6 %	1 octobre 2024	Auto-déclaré
8	Qwen2.5 14B Instruct	Qwen	58,4 %	19 septembre 2024	Auto-déclaré
9	Jamba 1.5 Large	AI21	58,3 %	22 août 2024	Auto-déclaré
10	IBM Granite 4.0 Tiny Preview	IBM	58,1 %	2 mai 2025	Auto-déclaré
11	Qwen2.5 32B Instruct	Qwen	57,8 %	19 septembre 2024	Auto-déclaré
12	Cohere: Command R (08-2024)	cohere	56,3 %	30 août 2024	Auto-déclaré
13	Qwen2 72B Instruct	Qwen	54,8 %	23 juillet 2024	Auto-déclaré
14	Qwen2.5-Coder 32B Instruct	Qwen	54,2 %	19 septembre 2024	Auto-déclaré
15	Jamba 1.5 Mini	AI21	54,1 %	22 août 2024	Auto-déclaré
16	Granite 3.3 8B Base	IBM	52,1 %	16 avril 2025	Auto-déclaré
17	Qwen2.5-Coder 7B Instruct	Qwen	50,6 %	19 septembre 2024	Auto-déclaré
18	Mistral NeMo Instruct	Mistral AI	50,3 %	18 juillet 2024	Auto-déclaré

Classement établi sur 18 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 58,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TruthfulQA indique qu’un modèle répond plus souvent de manière à la fois véridique et informative à des questions ouvertes conçues pour provoquer des erreurs. Dans la base, le score médian atteint 58 %, tandis que MAI-Thinking-1 de Microsoft obtient le meilleur résultat avec 88 %, ce qui suggère un écart important entre les systèmes évalués. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des évaluations entièrement mesurées de façon indépendante. Le benchmark présente aussi des limites classiques : une saturation progressive peut réduire son pouvoir discriminant, une contamination des données d’entraînement peut favoriser certains modèles, et sa portée reste liée à des questions en anglais, même si les catégories couvrent des domaines sensibles comme la santé, le droit, la finance et la politique. Le classement révèle surtout la capacité relative des modèles à éviter des réponses plausibles mais fausses.

Sources des scores : llm-stats.

TruthfulQA

Carte d'identité

Classement des modèles (top 18)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench