Recherche & embeddings

Natural Questions

Natural Questions est un benchmark de question answering créé par Google AI Language avec T. Kwiatkowski et al. Il repose sur de vraies requêtes anonymisées adressées au moteur de recherche Google, puis reliées à des pages Wikipédia annotées.

Le test mesure la capacité d’un modèle à comprendre une question ouverte, retrouver un passage pertinent, produire une réponse longue ou courte, ou identifier l’absence de réponse. Il sert ainsi à évaluer la recherche d’information et l’extraction de réponses dans un cadre proche d’un usage réel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google AI Language / T. Kwiatkowski et al.
Capacités mesurées	généraliste, raisonnement, recherche
Modalité	Texte
Type de questions	questions ouvertes de recherche d'information et d'extraction de réponses depuis des pages Wikipédia, avec réponses longues, réponses courtes ou questions sans réponse
Métrique d'évaluation	F1 pour les réponses longues et courtes
Accès	Jeu de test privé (réponses non divulguées)
Licence	CC-BY-SA-3.0
Langues	anglais
Taille du jeu	environ 323 000 exemples, dont 307 373 entraînement, 7 830 développement et 7 842 test
Année de publication	2019
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemma 2 27B	Google	34,5 %	27 juin 2024	Auto-déclaré
2	Mistral NeMo Instruct	Mistral AI	31,2 %	18 juillet 2024	Auto-déclaré
3	Gemma 2 9B	Google	29,2 %	27 juin 2024	Auto-déclaré
4	Gemma 3n E4B	Google	20,9 %	26 juin 2025	Auto-déclaré
5	Gemma 3n E4B Instructed LiteRT Preview	Google	20,9 %	20 mai 2025	Auto-déclaré
6	Gemma 3n E2B	Google	15,5 %	26 juin 2025	Auto-déclaré
7	Gemma 3n E2B Instructed LiteRT (Preview)	Google	15,5 %	20 mai 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 20,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Natural Questions indique une meilleure aptitude à repérer, dans Wikipédia, le passage utile et à en extraire une réponse conforme, courte ou longue. La métrique F1 valorise à la fois la précision et le rappel, ce qui rend le résultat plus informatif qu’une simple exactitude binaire. Dans la base, les scores restent modestes, avec une médiane à 21 % et un meilleur résultat à 34 %, ce qui ne suggère pas une saturation du benchmark parmi les modèles suivis.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, et le jeu de test est privé, avec réponses non divulguées, ce qui renforce la rigueur du protocole mais ne remplace pas une mesure indépendante systématique. La portée est aussi limitée à l’anglais et à Wikipédia. Enfin, 6 des 7 modèles classés sont édités par Google, qui a aussi co-développé Natural Questions, ce qui limite l’indépendance du classement pour comparer les modèles Google à ceux d’autres éditeurs.

Sources des scores : llm-stats.

Natural Questions

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench