Natural Questions

Natural Questions est un benchmark de question answering créé par Google AI Language avec T. Kwiatkowski et al. Il repose sur de vraies requêtes anonymisées adressées au moteur de recherche Google, puis reliées à des pages Wikipédia annotées.

Natural Questions est un benchmark de question answering créé par Google AI Language avec T. Kwiatkowski et al. Il repose sur de vraies requêtes anonymisées adressées au moteur de recherche Google, puis reliées à des pages Wikipédia annotées.

Le test mesure la capacité d’un modèle à comprendre une question ouverte, retrouver un passage pertinent, produire une réponse longue ou courte, ou identifier l’absence de réponse. Il sert ainsi à évaluer la recherche d’information et l’extraction de réponses dans un cadre proche d’un usage réel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle AI Language / T. Kwiatkowski et al.
Capacités mesuréesgénéraliste, raisonnement, recherche
ModalitéTexte
Type de questionsquestions ouvertes de recherche d'information et d'extraction de réponses depuis des pages Wikipédia, avec réponses longues, réponses courtes ou questions sans réponse
Métrique d'évaluationF1 pour les réponses longues et courtes
AccèsJeu de test privé (réponses non divulguées)
LicenceCC-BY-SA-3.0
Languesanglais
Taille du jeuenviron 323 000 exemples, dont 307 373 entraînement, 7 830 développement et 7 842 test
Année de publication2019
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Gemma 2 27BGoogle34,5 %27 juin 2024Auto-déclaré
2Mistral NeMo InstructMistral AI31,2 %18 juillet 2024Auto-déclaré
3Gemma 2 9BGoogle29,2 %27 juin 2024Auto-déclaré
4Gemma 3n E4BGoogle20,9 %26 juin 2025Auto-déclaré
5Gemma 3n E4B Instructed LiteRT PreviewGoogle20,9 %20 mai 2025Auto-déclaré
6Gemma 3n E2BGoogle15,5 %26 juin 2025Auto-déclaré
7Gemma 3n E2B Instructed LiteRT (Preview)Google15,5 %20 mai 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 20,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Natural Questions indique une meilleure aptitude à repérer, dans Wikipédia, le passage utile et à en extraire une réponse conforme, courte ou longue. La métrique F1 valorise à la fois la précision et le rappel, ce qui rend le résultat plus informatif qu’une simple exactitude binaire. Dans la base, les scores restent modestes, avec une médiane à 21 % et un meilleur résultat à 34 %, ce qui ne suggère pas une saturation du benchmark parmi les modèles suivis.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, et le jeu de test est privé, avec réponses non divulguées, ce qui renforce la rigueur du protocole mais ne remplace pas une mesure indépendante systématique. La portée est aussi limitée à l’anglais et à Wikipédia. Enfin, 6 des 7 modèles classés sont édités par Google, qui a aussi co-développé Natural Questions, ce qui limite l’indépendance du classement pour comparer les modèles Google à ceux d’autres éditeurs.


Sources des scores : llm-stats.