TriviaQA

TriviaQA est un benchmark de compréhension de lecture publié en 2017 par Mandar Joshi et al. à l’University of Washington. Il repose sur des questions de culture générale associées à des documents de preuve, afin d’évaluer la capacité d’un modèle à retrouver une information pertinente et…

TriviaQA est un benchmark de compréhension de lecture publié en 2017 par Mandar Joshi et al. à l’University of Washington. Il repose sur des questions de culture générale associées à des documents de preuve, afin d’évaluer la capacité d’un modèle à retrouver une information pertinente et à formuler une réponse courte.

Le benchmark met l’accent sur des questions relativement complexes, avec une forte variabilité lexicale et syntaxique. Il sert ainsi à mesurer non seulement l’extraction d’information, mais aussi le raisonnement multi-phrases nécessaire pour relier plusieurs éléments d’un document.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMandar Joshi et al. (University of Washington)
Capacités mesuréesgénéraliste, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte avec documents de preuve
Métrique d'évaluationexact match et F1
AccèsPublic
LicenceApache-2.0
Languesanglais
Taille du jeuenviron 95 000 paires question-réponse et plus de 650 000 triplets question-réponse-évidence
Année de publication2017
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 18)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2 BaseMoonshot AI85,1 %11 juillet 2025Auto-déclaré
2Gemma 2 27BGoogle83,7 %27 juin 2024Auto-déclaré
3MiMo-V2.5-ProXiaomi81,3 %27 avril 2026Auto-déclaré
4Mistral Small 3.1 24B BaseMistral AI80,5 %17 mars 2025Auto-déclaré
5Mistral Small 3.1 24B InstructMistral AI80,5 %17 mars 2025Auto-déclaré
6Mistral Small 3 24B BaseMistral AI80,3 %30 janvier 2025Auto-déclaré
7Granite 3.3 8B BaseIBM78,2 %16 avril 2025Auto-déclaré
8Gemma 2 9BGoogle76,6 %27 juin 2024Auto-déclaré
9Ministral 3 (14B Base 2512)Mistral AI74,9 %4 décembre 2025Auto-déclaré
10Mistral Large 3Mistral AI74,9 %1 septembre 2025Auto-déclaré
11Mistral NeMo InstructMistral AI73,8 %18 juillet 2024Auto-déclaré
12Gemma 3n E4BGoogle70,2 %26 juin 2025Auto-déclaré
13Gemma 3n E4B Instructed LiteRT PreviewGoogle70,2 %20 mai 2025Auto-déclaré
14Ministral 3 (8B Base 2512)Mistral AI68,1 %4 décembre 2025Auto-déclaré
15Ministral 8B InstructMistral AI65,5 %16 octobre 2024Auto-déclaré
16Gemma 3n E2BGoogle60,8 %26 juin 2025Auto-déclaré
17Gemma 3n E2B Instructed LiteRT (Preview)Google60,8 %20 mai 2025Auto-déclaré
18Ministral 3 (3B Base 2512)Mistral AI59,2 %4 décembre 2025Auto-déclaré

Classement établi sur 18 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 74,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TriviaQA indique qu’un modèle parvient généralement à identifier la bonne réponse dans des documents de preuve et à gérer des formulations variées de questions ouvertes. Les métriques exact match et F1 valorisent à la fois la correspondance stricte avec la réponse attendue et la proximité textuelle, ce qui rend le benchmark utile pour comparer des systèmes de question-réponse en anglais.

L’interprétation du classement demande toutefois de la prudence. Les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement contrôlée. Le score médian de 75% sur 18 modèles suggère un niveau de performance déjà élevé, tandis que Kimi K2 Base (Moonshot AI) atteint 85%, en tête de l’ensemble recensé. Cette hiérarchie reflète surtout la maîtrise de la compréhension de texte avec preuves, sans couvrir d’autres langues ni garantir l’absence de contamination liée à un jeu public et ancien.


Sources des scores : llm-stats.