OpenBookQA

OpenBookQA est un benchmark de questions-réponses conçu par Allen Institute for AI (AI2) avec Todor Mihaylov et al. Il s’inspire des examens à livre ouvert pour tester la compréhension scientifique élémentaire à travers des questions à choix multiple.

OpenBookQA est un benchmark de questions-réponses conçu par Allen Institute for AI (AI2) avec Todor Mihaylov et al. Il s’inspire des examens à livre ouvert pour tester la compréhension scientifique élémentaire à travers des questions à choix multiple.

Le benchmark mesure la capacité d’un modèle à mobiliser des faits scientifiques de base, puis à les combiner avec des connaissances communes pour résoudre des situations nouvelles. Il sert ainsi à évaluer un raisonnement multi-étapes simple, au-delà de la simple restitution de connaissances.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAllen Institute for AI (AI2) / Todor Mihaylov et al.
Capacités mesuréesgénéraliste, raisonnement
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu5 957 questions
Année de publication2018
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Phi-3.5-MoE-instructMicrosoft89,6 %23 août 2024Auto-déclaré
2Phi 4 MiniMicrosoft79,2 %30 avril 2025Auto-déclaré
3Phi-3.5-mini-instructMicrosoft79,2 %23 août 2024Auto-déclaré
4Mistral NeMo InstructMistral AI60,6 %18 juillet 2024Auto-déclaré
5Hermes 3 70BNous Research49,4 %15 août 2024Auto-déclaré

Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 79,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OpenBookQA indique qu’un modèle sait relier des faits scientifiques élémentaires à un contexte inédit, avec une bonne précision sur des QCM en anglais. Le classement disponible dans la base reste toutefois à lire avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le meilleur résultat recensé, Phi-3.5-MoE-instruct à 90%, dépasse nettement le score médian de 79% observé sur les cinq modèles suivis, ce qui suggère un écart réel entre systèmes sur ce type de raisonnement court. Les limites principales tiennent à la portée du test, centré sur des sciences élémentaires et des choix multiples, à une possible saturation pour les modèles récents, et au risque de contamination lié au caractère public du jeu de données. OpenBookQA reste donc utile comme signal ciblé de raisonnement scientifique de base, mais insuffisant pour juger seul des capacités générales d’un modèle.


Sources des scores : llm-stats.