Natural Questions
Natural Questions est un benchmark de question answering créé par Google AI Language avec T. Kwiatkowski et al. Il repose sur de vraies requêtes anonymisées adressées au moteur de recherche Google, puis reliées à des pages Wikipédia annotées.
Natural Questions est un benchmark de question answering créé par Google AI Language avec T. Kwiatkowski et al. Il repose sur de vraies requêtes anonymisées adressées au moteur de recherche Google, puis reliées à des pages Wikipédia annotées.
Le test mesure la capacité d’un modèle à comprendre une question ouverte, retrouver un passage pertinent, produire une réponse longue ou courte, ou identifier l’absence de réponse. Il sert ainsi à évaluer la recherche d’information et l’extraction de réponses dans un cadre proche d’un usage réel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google AI Language / T. Kwiatkowski et al. |
| Capacités mesurées | généraliste, raisonnement, recherche |
| Modalité | Texte |
| Type de questions | questions ouvertes de recherche d'information et d'extraction de réponses depuis des pages Wikipédia, avec réponses longues, réponses courtes ou questions sans réponse |
| Métrique d'évaluation | F1 pour les réponses longues et courtes |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | CC-BY-SA-3.0 |
| Langues | anglais |
| Taille du jeu | environ 323 000 exemples, dont 307 373 entraînement, 7 830 développement et 7 842 test |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemma 2 27B | 34,5 % | 27 juin 2024 | Auto-déclaré | |
| 2 | Mistral NeMo Instruct | Mistral AI | 31,2 % | 18 juillet 2024 | Auto-déclaré |
| 3 | Gemma 2 9B | 29,2 % | 27 juin 2024 | Auto-déclaré | |
| 4 | Gemma 3n E4B | 20,9 % | 26 juin 2025 | Auto-déclaré | |
| 5 | Gemma 3n E4B Instructed LiteRT Preview | 20,9 % | 20 mai 2025 | Auto-déclaré | |
| 6 | Gemma 3n E2B | 15,5 % | 26 juin 2025 | Auto-déclaré | |
| 7 | Gemma 3n E2B Instructed LiteRT (Preview) | 15,5 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 20,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Natural Questions indique une meilleure aptitude à repérer, dans Wikipédia, le passage utile et à en extraire une réponse conforme, courte ou longue. La métrique F1 valorise à la fois la précision et le rappel, ce qui rend le résultat plus informatif qu’une simple exactitude binaire. Dans la base, les scores restent modestes, avec une médiane à 21 % et un meilleur résultat à 34 %, ce qui ne suggère pas une saturation du benchmark parmi les modèles suivis.
La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, et le jeu de test est privé, avec réponses non divulguées, ce qui renforce la rigueur du protocole mais ne remplace pas une mesure indépendante systématique. La portée est aussi limitée à l’anglais et à Wikipédia. Enfin, 6 des 7 modèles classés sont édités par Google, qui a aussi co-développé Natural Questions, ce qui limite l’indépendance du classement pour comparer les modèles Google à ceux d’autres éditeurs.
Sources des scores : llm-stats.