BoolQ
BoolQ est un benchmark de compréhension de lecture consacré aux questions naturelles à réponse oui/non. Créé par Google AI Language, avec Christopher Clark et al., il évalue la capacité d’un modèle à relier une question à un passage et à produire une réponse booléenne cohérente.
BoolQ est un benchmark de compréhension de lecture consacré aux questions naturelles à réponse oui/non. Créé par Google AI Language, avec Christopher Clark et al., il évalue la capacité d’un modèle à relier une question à un passage et à produire une réponse booléenne cohérente.
Son intérêt tient au caractère non contraint des questions, issues de formulations naturelles plutôt que de gabarits artificiels. BoolQ sert ainsi à tester une forme d’inférence textuelle proche de l’entailment, utile pour mesurer la robustesse des modèles face à des informations complexes et non strictement factuelles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google AI Language (Christopher Clark et al.) |
| Capacités mesurées | langage, raisonnement |
| Modalité | Texte |
| Type de questions | questions oui/non avec passage de lecture |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | CC-BY-SA-3.0 |
| Langues | anglais |
| Taille du jeu | 15 942 exemples |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Hermes 3 70B | Nous Research | 88,0 % | 15 août 2024 | Auto-déclaré |
| 2 | Gemma 2 27B | 84,8 % | 27 juin 2024 | Auto-déclaré | |
| 3 | Phi-3.5-MoE-instruct | Microsoft | 84,6 % | 23 août 2024 | Auto-déclaré |
| 4 | Gemma 2 9B | 84,2 % | 27 juin 2024 | Auto-déclaré | |
| 5 | Gemma 3n E4B | 81,6 % | 26 juin 2025 | Auto-déclaré | |
| 6 | Gemma 3n E4B Instructed LiteRT Preview | 81,6 % | 20 mai 2025 | Auto-déclaré | |
| 7 | Phi 4 Mini | Microsoft | 81,2 % | 30 avril 2025 | Auto-déclaré |
| 8 | Phi-3.5-mini-instruct | Microsoft | 78,0 % | 23 août 2024 | Auto-déclaré |
| 9 | Gemma 3n E2B | 76,4 % | 26 juin 2025 | Auto-déclaré | |
| 10 | Gemma 3n E2B Instructed LiteRT (Preview) | 76,4 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 81,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BoolQ indique qu’un modèle parvient généralement à extraire et relier les indices pertinents d’un passage pour trancher une question oui/non. Dans la base considérée, les résultats disponibles montrent un niveau global déjà élevé, avec une médiane à 82 % et un meilleur score de 88 % pour Hermes 3 70B (Nous Research). Cet écart limité suggère un benchmark relativement disputé en tête, où les gains marginaux doivent être interprétés avec prudence.
- Rigueur : les scores étant majoritairement auto-déclarés par les éditeurs, la comparaison dépend de la transparence des protocoles et peut être moins robuste qu’une évaluation entièrement reproduite par un tiers.
- Limites : l’accès public au jeu facilite l’évaluation, mais impose de considérer le risque de contamination des données d’entraînement. La portée reste centrée sur l’anglais et sur des réponses booléennes, ce qui ne couvre pas toute la diversité du raisonnement ou de la génération longue.
Sources des scores : llm-stats.