Connaissances & sciences

OpenBookQA

OpenBookQA est un benchmark de questions-réponses conçu par Allen Institute for AI (AI2) avec Todor Mihaylov et al. Il s’inspire des examens à livre ouvert pour tester la compréhension scientifique élémentaire à travers des questions à choix multiple.

Le benchmark mesure la capacité d’un modèle à mobiliser des faits scientifiques de base, puis à les combiner avec des connaissances communes pour résoudre des situations nouvelles. Il sert ainsi à évaluer un raisonnement multi-étapes simple, au-delà de la simple restitution de connaissances.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Allen Institute for AI (AI2) / Todor Mihaylov et al.
Capacités mesurées	généraliste, raisonnement
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	5 957 questions
Année de publication	2018
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Phi-3.5-MoE-instruct	Microsoft	89,6 %	23 août 2024	Auto-déclaré
2	Phi 4 Mini	Microsoft	79,2 %	30 avril 2025	Auto-déclaré
3	Phi-3.5-mini-instruct	Microsoft	79,2 %	23 août 2024	Auto-déclaré
4	Mistral NeMo Instruct	Mistral AI	60,6 %	18 juillet 2024	Auto-déclaré
5	Hermes 3 70B	Nous Research	49,4 %	15 août 2024	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 79,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OpenBookQA indique qu’un modèle sait relier des faits scientifiques élémentaires à un contexte inédit, avec une bonne précision sur des QCM en anglais. Le classement disponible dans la base reste toutefois à lire avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le meilleur résultat recensé, Phi-3.5-MoE-instruct à 90%, dépasse nettement le score médian de 79% observé sur les cinq modèles suivis, ce qui suggère un écart réel entre systèmes sur ce type de raisonnement court. Les limites principales tiennent à la portée du test, centré sur des sciences élémentaires et des choix multiples, à une possible saturation pour les modèles récents, et au risque de contamination lié au caractère public du jeu de données. OpenBookQA reste donc utile comme signal ciblé de raisonnement scientifique de base, mais insuffisant pour juger seul des capacités générales d’un modèle.

Sources des scores : llm-stats.

OpenBookQA

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench