BoolQ

BoolQ est un benchmark de compréhension de lecture consacré aux questions naturelles à réponse oui/non. Créé par Google AI Language, avec Christopher Clark et al., il évalue la capacité d’un modèle à relier une question à un passage et à produire une réponse booléenne cohérente.

BoolQ est un benchmark de compréhension de lecture consacré aux questions naturelles à réponse oui/non. Créé par Google AI Language, avec Christopher Clark et al., il évalue la capacité d’un modèle à relier une question à un passage et à produire une réponse booléenne cohérente.

Son intérêt tient au caractère non contraint des questions, issues de formulations naturelles plutôt que de gabarits artificiels. BoolQ sert ainsi à tester une forme d’inférence textuelle proche de l’entailment, utile pour mesurer la robustesse des modèles face à des informations complexes et non strictement factuelles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle AI Language (Christopher Clark et al.)
Capacités mesuréeslangage, raisonnement
ModalitéTexte
Type de questionsquestions oui/non avec passage de lecture
Métrique d'évaluationaccuracy
AccèsPublic
LicenceCC-BY-SA-3.0
Languesanglais
Taille du jeu15 942 exemples
Année de publication2019
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1Hermes 3 70BNous Research88,0 %15 août 2024Auto-déclaré
2Gemma 2 27BGoogle84,8 %27 juin 2024Auto-déclaré
3Phi-3.5-MoE-instructMicrosoft84,6 %23 août 2024Auto-déclaré
4Gemma 2 9BGoogle84,2 %27 juin 2024Auto-déclaré
5Gemma 3n E4BGoogle81,6 %26 juin 2025Auto-déclaré
6Gemma 3n E4B Instructed LiteRT PreviewGoogle81,6 %20 mai 2025Auto-déclaré
7Phi 4 MiniMicrosoft81,2 %30 avril 2025Auto-déclaré
8Phi-3.5-mini-instructMicrosoft78,0 %23 août 2024Auto-déclaré
9Gemma 3n E2BGoogle76,4 %26 juin 2025Auto-déclaré
10Gemma 3n E2B Instructed LiteRT (Preview)Google76,4 %20 mai 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 81,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BoolQ indique qu’un modèle parvient généralement à extraire et relier les indices pertinents d’un passage pour trancher une question oui/non. Dans la base considérée, les résultats disponibles montrent un niveau global déjà élevé, avec une médiane à 82 % et un meilleur score de 88 % pour Hermes 3 70B (Nous Research). Cet écart limité suggère un benchmark relativement disputé en tête, où les gains marginaux doivent être interprétés avec prudence.

  • Rigueur : les scores étant majoritairement auto-déclarés par les éditeurs, la comparaison dépend de la transparence des protocoles et peut être moins robuste qu’une évaluation entièrement reproduite par un tiers.
  • Limites : l’accès public au jeu facilite l’évaluation, mais impose de considérer le risque de contamination des données d’entraînement. La portée reste centrée sur l’anglais et sur des réponses booléennes, ce qui ne couvre pas toute la diversité du raisonnement ou de la génération longue.

Sources des scores : llm-stats.