OpenBookQA
OpenBookQA est un benchmark de questions-réponses conçu par Allen Institute for AI (AI2) avec Todor Mihaylov et al. Il s’inspire des examens à livre ouvert pour tester la compréhension scientifique élémentaire à travers des questions à choix multiple.
OpenBookQA est un benchmark de questions-réponses conçu par Allen Institute for AI (AI2) avec Todor Mihaylov et al. Il s’inspire des examens à livre ouvert pour tester la compréhension scientifique élémentaire à travers des questions à choix multiple.
Le benchmark mesure la capacité d’un modèle à mobiliser des faits scientifiques de base, puis à les combiner avec des connaissances communes pour résoudre des situations nouvelles. Il sert ainsi à évaluer un raisonnement multi-étapes simple, au-delà de la simple restitution de connaissances.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Allen Institute for AI (AI2) / Todor Mihaylov et al. |
| Capacités mesurées | généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 5 957 questions |
| Année de publication | 2018 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Phi-3.5-MoE-instruct | Microsoft | 89,6 % | 23 août 2024 | Auto-déclaré |
| 2 | Phi 4 Mini | Microsoft | 79,2 % | 30 avril 2025 | Auto-déclaré |
| 3 | Phi-3.5-mini-instruct | Microsoft | 79,2 % | 23 août 2024 | Auto-déclaré |
| 4 | Mistral NeMo Instruct | Mistral AI | 60,6 % | 18 juillet 2024 | Auto-déclaré |
| 5 | Hermes 3 70B | Nous Research | 49,4 % | 15 août 2024 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 79,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OpenBookQA indique qu’un modèle sait relier des faits scientifiques élémentaires à un contexte inédit, avec une bonne précision sur des QCM en anglais. Le classement disponible dans la base reste toutefois à lire avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le meilleur résultat recensé, Phi-3.5-MoE-instruct à 90%, dépasse nettement le score médian de 79% observé sur les cinq modèles suivis, ce qui suggère un écart réel entre systèmes sur ce type de raisonnement court. Les limites principales tiennent à la portée du test, centré sur des sciences élémentaires et des choix multiples, à une possible saturation pour les modèles récents, et au risque de contamination lié au caractère public du jeu de données. OpenBookQA reste donc utile comme signal ciblé de raisonnement scientifique de base, mais insuffisant pour juger seul des capacités générales d’un modèle.
Sources des scores : llm-stats.