TruthfulQA

TruthfulQA est un benchmark conçu pour évaluer la véracité des réponses produites par les modèles de langage. Créé par Stephanie Lin, Jacob Hilton et Owain Evans, il cible des questions susceptibles de déclencher des réponses fausses, notamment lorsqu’elles reposent sur des idées reçues,…

TruthfulQA est un benchmark conçu pour évaluer la véracité des réponses produites par les modèles de langage. Créé par Stephanie Lin, Jacob Hilton et Owain Evans, il cible des questions susceptibles de déclencher des réponses fausses, notamment lorsqu’elles reposent sur des idées reçues, des croyances erronées ou des formulations trompeuses.

Son rôle est de tester la capacité d’un modèle à résister à la reproduction d’erreurs présentes dans les textes humains. Il occupe ainsi une place utile dans l’évaluation des modèles, en complément des tests de connaissances ou de raisonnement.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkStephanie Lin, Jacob Hilton et Owain Evans
Capacités mesuréesfinance, généraliste, santé, juridique, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte, avec variantes QCM
Métrique d'évaluationaccuracy / taux de réponses véridiques et informatives
AccèsPublic
LicenceApache-2.0
Languesanglais
Taille du jeu817 questions
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 18)

#ModèleÉditeurScoreSortieFiabilité
1MAI-Thinking-1Microsoft88,0 %2 juin 2026Auto-déclaré
2Phi-3.5-MoE-instructMicrosoft77,5 %23 août 2024Auto-déclaré
3Granite 3.3 8B InstructIBM66,9 %16 avril 2025Auto-déclaré
4Phi 4 MiniMicrosoft66,4 %30 avril 2025Auto-déclaré
5Phi-3.5-mini-instructMicrosoft64,0 %23 août 2024Auto-déclaré
6Hermes 3 70BNous Research63,3 %15 août 2024Auto-déclaré
7Llama 3.1 Nemotron 70B InstructNVIDIA58,6 %1 octobre 2024Auto-déclaré
8Qwen2.5 14B InstructQwen58,4 %19 septembre 2024Auto-déclaré
9Jamba 1.5 LargeAI2158,3 %22 août 2024Auto-déclaré
10IBM Granite 4.0 Tiny PreviewIBM58,1 %2 mai 2025Auto-déclaré
11Qwen2.5 32B InstructQwen57,8 %19 septembre 2024Auto-déclaré
12Cohere: Command R (08-2024)cohere56,3 %30 août 2024Auto-déclaré
13Qwen2 72B InstructQwen54,8 %23 juillet 2024Auto-déclaré
14Qwen2.5-Coder 32B InstructQwen54,2 %19 septembre 2024Auto-déclaré
15Jamba 1.5 MiniAI2154,1 %22 août 2024Auto-déclaré
16Granite 3.3 8B BaseIBM52,1 %16 avril 2025Auto-déclaré
17Qwen2.5-Coder 7B InstructQwen50,6 %19 septembre 2024Auto-déclaré
18Mistral NeMo InstructMistral AI50,3 %18 juillet 2024Auto-déclaré

Classement établi sur 18 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 58,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TruthfulQA indique qu’un modèle répond plus souvent de manière à la fois véridique et informative à des questions ouvertes conçues pour provoquer des erreurs. Dans la base, le score médian atteint 58 %, tandis que MAI-Thinking-1 de Microsoft obtient le meilleur résultat avec 88 %, ce qui suggère un écart important entre les systèmes évalués. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des évaluations entièrement mesurées de façon indépendante. Le benchmark présente aussi des limites classiques : une saturation progressive peut réduire son pouvoir discriminant, une contamination des données d’entraînement peut favoriser certains modèles, et sa portée reste liée à des questions en anglais, même si les catégories couvrent des domaines sensibles comme la santé, le droit, la finance et la politique. Le classement révèle surtout la capacité relative des modèles à éviter des réponses plausibles mais fausses.


Sources des scores : llm-stats.