TriviaQA
TriviaQA est un benchmark de compréhension de lecture publié en 2017 par Mandar Joshi et al. à l’University of Washington. Il repose sur des questions de culture générale associées à des documents de preuve, afin d’évaluer la capacité d’un modèle à retrouver une information pertinente et…
TriviaQA est un benchmark de compréhension de lecture publié en 2017 par Mandar Joshi et al. à l’University of Washington. Il repose sur des questions de culture générale associées à des documents de preuve, afin d’évaluer la capacité d’un modèle à retrouver une information pertinente et à formuler une réponse courte.
Le benchmark met l’accent sur des questions relativement complexes, avec une forte variabilité lexicale et syntaxique. Il sert ainsi à mesurer non seulement l’extraction d’information, mais aussi le raisonnement multi-phrases nécessaire pour relier plusieurs éléments d’un document.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Mandar Joshi et al. (University of Washington) |
| Capacités mesurées | généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte avec documents de preuve |
| Métrique d'évaluation | exact match et F1 |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais |
| Taille du jeu | environ 95 000 paires question-réponse et plus de 650 000 triplets question-réponse-évidence |
| Année de publication | 2017 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 18)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2 Base | Moonshot AI | 85,1 % | 11 juillet 2025 | Auto-déclaré |
| 2 | Gemma 2 27B | 83,7 % | 27 juin 2024 | Auto-déclaré | |
| 3 | MiMo-V2.5-Pro | Xiaomi | 81,3 % | 27 avril 2026 | Auto-déclaré |
| 4 | Mistral Small 3.1 24B Base | Mistral AI | 80,5 % | 17 mars 2025 | Auto-déclaré |
| 5 | Mistral Small 3.1 24B Instruct | Mistral AI | 80,5 % | 17 mars 2025 | Auto-déclaré |
| 6 | Mistral Small 3 24B Base | Mistral AI | 80,3 % | 30 janvier 2025 | Auto-déclaré |
| 7 | Granite 3.3 8B Base | IBM | 78,2 % | 16 avril 2025 | Auto-déclaré |
| 8 | Gemma 2 9B | 76,6 % | 27 juin 2024 | Auto-déclaré | |
| 9 | Ministral 3 (14B Base 2512) | Mistral AI | 74,9 % | 4 décembre 2025 | Auto-déclaré |
| 10 | Mistral Large 3 | Mistral AI | 74,9 % | 1 septembre 2025 | Auto-déclaré |
| 11 | Mistral NeMo Instruct | Mistral AI | 73,8 % | 18 juillet 2024 | Auto-déclaré |
| 12 | Gemma 3n E4B | 70,2 % | 26 juin 2025 | Auto-déclaré | |
| 13 | Gemma 3n E4B Instructed LiteRT Preview | 70,2 % | 20 mai 2025 | Auto-déclaré | |
| 14 | Ministral 3 (8B Base 2512) | Mistral AI | 68,1 % | 4 décembre 2025 | Auto-déclaré |
| 15 | Ministral 8B Instruct | Mistral AI | 65,5 % | 16 octobre 2024 | Auto-déclaré |
| 16 | Gemma 3n E2B | 60,8 % | 26 juin 2025 | Auto-déclaré | |
| 17 | Gemma 3n E2B Instructed LiteRT (Preview) | 60,8 % | 20 mai 2025 | Auto-déclaré | |
| 18 | Ministral 3 (3B Base 2512) | Mistral AI | 59,2 % | 4 décembre 2025 | Auto-déclaré |
Classement établi sur 18 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 74,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur TriviaQA indique qu’un modèle parvient généralement à identifier la bonne réponse dans des documents de preuve et à gérer des formulations variées de questions ouvertes. Les métriques exact match et F1 valorisent à la fois la correspondance stricte avec la réponse attendue et la proximité textuelle, ce qui rend le benchmark utile pour comparer des systèmes de question-réponse en anglais.
L’interprétation du classement demande toutefois de la prudence. Les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement contrôlée. Le score médian de 75% sur 18 modèles suggère un niveau de performance déjà élevé, tandis que Kimi K2 Base (Moonshot AI) atteint 85%, en tête de l’ensemble recensé. Cette hiérarchie reflète surtout la maîtrise de la compréhension de texte avec preuves, sans couvrir d’autres langues ni garantir l’absence de contamination liée à un jeu public et ancien.
Sources des scores : llm-stats.