Langage & rédaction

BoolQ

BoolQ est un benchmark de compréhension de lecture consacré aux questions naturelles à réponse oui/non. Créé par Google AI Language, avec Christopher Clark et al., il évalue la capacité d’un modèle à relier une question à un passage et à produire une réponse booléenne cohérente.

Son intérêt tient au caractère non contraint des questions, issues de formulations naturelles plutôt que de gabarits artificiels. BoolQ sert ainsi à tester une forme d’inférence textuelle proche de l’entailment, utile pour mesurer la robustesse des modèles face à des informations complexes et non strictement factuelles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google AI Language (Christopher Clark et al.)
Capacités mesurées	langage, raisonnement
Modalité	Texte
Type de questions	questions oui/non avec passage de lecture
Métrique d'évaluation	accuracy
Accès	Public
Licence	CC-BY-SA-3.0
Langues	anglais
Taille du jeu	15 942 exemples
Année de publication	2019
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Hermes 3 70B	Nous Research	88,0 %	15 août 2024	Auto-déclaré
2	Gemma 2 27B	Google	84,8 %	27 juin 2024	Auto-déclaré
3	Phi-3.5-MoE-instruct	Microsoft	84,6 %	23 août 2024	Auto-déclaré
4	Gemma 2 9B	Google	84,2 %	27 juin 2024	Auto-déclaré
5	Gemma 3n E4B	Google	81,6 %	26 juin 2025	Auto-déclaré
6	Gemma 3n E4B Instructed LiteRT Preview	Google	81,6 %	20 mai 2025	Auto-déclaré
7	Phi 4 Mini	Microsoft	81,2 %	30 avril 2025	Auto-déclaré
8	Phi-3.5-mini-instruct	Microsoft	78,0 %	23 août 2024	Auto-déclaré
9	Gemma 3n E2B	Google	76,4 %	26 juin 2025	Auto-déclaré
10	Gemma 3n E2B Instructed LiteRT (Preview)	Google	76,4 %	20 mai 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 81,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BoolQ indique qu’un modèle parvient généralement à extraire et relier les indices pertinents d’un passage pour trancher une question oui/non. Dans la base considérée, les résultats disponibles montrent un niveau global déjà élevé, avec une médiane à 82 % et un meilleur score de 88 % pour Hermes 3 70B (Nous Research). Cet écart limité suggère un benchmark relativement disputé en tête, où les gains marginaux doivent être interprétés avec prudence.

Rigueur : les scores étant majoritairement auto-déclarés par les éditeurs, la comparaison dépend de la transparence des protocoles et peut être moins robuste qu’une évaluation entièrement reproduite par un tiers.
Limites : l’accès public au jeu facilite l’évaluation, mais impose de considérer le risque de contamination des données d’entraînement. La portée reste centrée sur l’anglais et sur des réponses booléennes, ce qui ne couvre pas toute la diversité du raisonnement ou de la génération longue.

Sources des scores : llm-stats.

BoolQ

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++