TruthfulQA
TruthfulQA est un benchmark conçu pour évaluer la véracité des réponses produites par les modèles de langage. Créé par Stephanie Lin, Jacob Hilton et Owain Evans, il cible des questions susceptibles de déclencher des réponses fausses, notamment lorsqu’elles reposent sur des idées reçues,…
TruthfulQA est un benchmark conçu pour évaluer la véracité des réponses produites par les modèles de langage. Créé par Stephanie Lin, Jacob Hilton et Owain Evans, il cible des questions susceptibles de déclencher des réponses fausses, notamment lorsqu’elles reposent sur des idées reçues, des croyances erronées ou des formulations trompeuses.
Son rôle est de tester la capacité d’un modèle à résister à la reproduction d’erreurs présentes dans les textes humains. Il occupe ainsi une place utile dans l’évaluation des modèles, en complément des tests de connaissances ou de raisonnement.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Stephanie Lin, Jacob Hilton et Owain Evans |
| Capacités mesurées | finance, généraliste, santé, juridique, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte, avec variantes QCM |
| Métrique d'évaluation | accuracy / taux de réponses véridiques et informatives |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais |
| Taille du jeu | 817 questions |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 18)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MAI-Thinking-1 | Microsoft | 88,0 % | 2 juin 2026 | Auto-déclaré |
| 2 | Phi-3.5-MoE-instruct | Microsoft | 77,5 % | 23 août 2024 | Auto-déclaré |
| 3 | Granite 3.3 8B Instruct | IBM | 66,9 % | 16 avril 2025 | Auto-déclaré |
| 4 | Phi 4 Mini | Microsoft | 66,4 % | 30 avril 2025 | Auto-déclaré |
| 5 | Phi-3.5-mini-instruct | Microsoft | 64,0 % | 23 août 2024 | Auto-déclaré |
| 6 | Hermes 3 70B | Nous Research | 63,3 % | 15 août 2024 | Auto-déclaré |
| 7 | Llama 3.1 Nemotron 70B Instruct | NVIDIA | 58,6 % | 1 octobre 2024 | Auto-déclaré |
| 8 | Qwen2.5 14B Instruct | Qwen | 58,4 % | 19 septembre 2024 | Auto-déclaré |
| 9 | Jamba 1.5 Large | AI21 | 58,3 % | 22 août 2024 | Auto-déclaré |
| 10 | IBM Granite 4.0 Tiny Preview | IBM | 58,1 % | 2 mai 2025 | Auto-déclaré |
| 11 | Qwen2.5 32B Instruct | Qwen | 57,8 % | 19 septembre 2024 | Auto-déclaré |
| 12 | Cohere: Command R (08-2024) | cohere | 56,3 % | 30 août 2024 | Auto-déclaré |
| 13 | Qwen2 72B Instruct | Qwen | 54,8 % | 23 juillet 2024 | Auto-déclaré |
| 14 | Qwen2.5-Coder 32B Instruct | Qwen | 54,2 % | 19 septembre 2024 | Auto-déclaré |
| 15 | Jamba 1.5 Mini | AI21 | 54,1 % | 22 août 2024 | Auto-déclaré |
| 16 | Granite 3.3 8B Base | IBM | 52,1 % | 16 avril 2025 | Auto-déclaré |
| 17 | Qwen2.5-Coder 7B Instruct | Qwen | 50,6 % | 19 septembre 2024 | Auto-déclaré |
| 18 | Mistral NeMo Instruct | Mistral AI | 50,3 % | 18 juillet 2024 | Auto-déclaré |
Classement établi sur 18 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 58,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur TruthfulQA indique qu’un modèle répond plus souvent de manière à la fois véridique et informative à des questions ouvertes conçues pour provoquer des erreurs. Dans la base, le score médian atteint 58 %, tandis que MAI-Thinking-1 de Microsoft obtient le meilleur résultat avec 88 %, ce qui suggère un écart important entre les systèmes évalués. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des évaluations entièrement mesurées de façon indépendante. Le benchmark présente aussi des limites classiques : une saturation progressive peut réduire son pouvoir discriminant, une contamination des données d’entraînement peut favoriser certains modèles, et sa portée reste liée à des questions en anglais, même si les catégories couvrent des domaines sensibles comme la santé, le droit, la finance et la politique. Le classement révèle surtout la capacité relative des modèles à éviter des réponses plausibles mais fausses.
Sources des scores : llm-stats.