Connaissances & sciences

TriviaQA

TriviaQA est un benchmark de compréhension de lecture publié en 2017 par Mandar Joshi et al. à l’University of Washington. Il repose sur des questions de culture générale associées à des documents de preuve, afin d’évaluer la capacité d’un modèle à retrouver une information pertinente et…

Le benchmark met l’accent sur des questions relativement complexes, avec une forte variabilité lexicale et syntaxique. Il sert ainsi à mesurer non seulement l’extraction d’information, mais aussi le raisonnement multi-phrases nécessaire pour relier plusieurs éléments d’un document.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Mandar Joshi et al. (University of Washington)
Capacités mesurées	généraliste, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte avec documents de preuve
Métrique d'évaluation	exact match et F1
Accès	Public
Licence	Apache-2.0
Langues	anglais
Taille du jeu	environ 95 000 paires question-réponse et plus de 650 000 triplets question-réponse-évidence
Année de publication	2017
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 18)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2 Base	Moonshot AI	85,1 %	11 juillet 2025	Auto-déclaré
2	Gemma 2 27B	Google	83,7 %	27 juin 2024	Auto-déclaré
3	MiMo-V2.5-Pro	Xiaomi	81,3 %	27 avril 2026	Auto-déclaré
4	Mistral Small 3.1 24B Base	Mistral AI	80,5 %	17 mars 2025	Auto-déclaré
5	Mistral Small 3.1 24B Instruct	Mistral AI	80,5 %	17 mars 2025	Auto-déclaré
6	Mistral Small 3 24B Base	Mistral AI	80,3 %	30 janvier 2025	Auto-déclaré
7	Granite 3.3 8B Base	IBM	78,2 %	16 avril 2025	Auto-déclaré
8	Gemma 2 9B	Google	76,6 %	27 juin 2024	Auto-déclaré
9	Ministral 3 (14B Base 2512)	Mistral AI	74,9 %	4 décembre 2025	Auto-déclaré
10	Mistral Large 3	Mistral AI	74,9 %	1 septembre 2025	Auto-déclaré
11	Mistral NeMo Instruct	Mistral AI	73,8 %	18 juillet 2024	Auto-déclaré
12	Gemma 3n E4B	Google	70,2 %	26 juin 2025	Auto-déclaré
13	Gemma 3n E4B Instructed LiteRT Preview	Google	70,2 %	20 mai 2025	Auto-déclaré
14	Ministral 3 (8B Base 2512)	Mistral AI	68,1 %	4 décembre 2025	Auto-déclaré
15	Ministral 8B Instruct	Mistral AI	65,5 %	16 octobre 2024	Auto-déclaré
16	Gemma 3n E2B	Google	60,8 %	26 juin 2025	Auto-déclaré
17	Gemma 3n E2B Instructed LiteRT (Preview)	Google	60,8 %	20 mai 2025	Auto-déclaré
18	Ministral 3 (3B Base 2512)	Mistral AI	59,2 %	4 décembre 2025	Auto-déclaré

Classement établi sur 18 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 74,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TriviaQA indique qu’un modèle parvient généralement à identifier la bonne réponse dans des documents de preuve et à gérer des formulations variées de questions ouvertes. Les métriques exact match et F1 valorisent à la fois la correspondance stricte avec la réponse attendue et la proximité textuelle, ce qui rend le benchmark utile pour comparer des systèmes de question-réponse en anglais.

L’interprétation du classement demande toutefois de la prudence. Les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement contrôlée. Le score médian de 75% sur 18 modèles suggère un niveau de performance déjà élevé, tandis que Kimi K2 Base (Moonshot AI) atteint 85%, en tête de l’ensemble recensé. Cette hiérarchie reflète surtout la maîtrise de la compréhension de texte avec preuves, sans couvrir d’autres langues ni garantir l’absence de contamination liée à un jeu public et ancien.

Sources des scores : llm-stats.

TriviaQA

Carte d'identité

Classement des modèles (top 18)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench