AI2D

AI2D est un benchmark consacré à la compréhension de diagrammes scientifiques issus des sciences naturelles scolaires. Créé par l’Allen Institute for Artificial Intelligence avec Kembhavi et al., il repose sur des schémas illustratifs accompagnés de questions à choix multiples en anglais.

AI2D est un benchmark consacré à la compréhension de diagrammes scientifiques issus des sciences naturelles scolaires. Créé par l’Allen Institute for Artificial Intelligence avec Kembhavi et al., il repose sur des schémas illustratifs accompagnés de questions à choix multiples en anglais.

Le benchmark mesure la capacité des modèles à interpréter des éléments visuels, des relations spatiales, structurelles et sémantiques, puis à raisonner sur des concepts scientifiques représentés sous forme graphique. Il sert ainsi à évaluer une compétence multimodale spécifique, distincte de la simple reconnaissance d’image ou du raisonnement textuel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAllen Institute for Artificial Intelligence (AI2) / Kembhavi et al.
Capacités mesuréesmultimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu4 903 diagrammes et plus de 15 000 questions à choix multiples
Année de publication2016
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude 3.5 SonnetAnthropic94,7 %22 octobre 2024Auto-déclaré
2Qwen3.6 PlusQwen94,4 %31 mars 2026Auto-déclaré
3GPT-4oOpenAI94,2 %27 mars 2025Auto-déclaré
4Pixtral LargeMistral AI93,8 %18 novembre 2024Auto-déclaré
5Qwen3.5-122B-A10BQwen93,3 %24 février 2026Auto-déclaré
6Mistral Small 3.2 24B InstructMistral AI92,9 %20 juin 2025Auto-déclaré
7Qwen3.5-27BQwen92,9 %24 février 2026Auto-déclaré
8Qwen3.6-35B-A3BQwen92,7 %16 avril 2026Auto-déclaré
9Qwen3.5-35B-A3BQwen92,6 %24 février 2026Auto-déclaré
10Llama 3.2 90B InstructMeta92,3 %25 septembre 2024Auto-déclaré
11Llama 3.2 11B InstructMeta91,1 %25 septembre 2024Auto-déclaré
12Qwen3 VL 235B A22B InstructQwen89,7 %22 septembre 2025Auto-déclaré
13Qwen3 VL 32B InstructQwen89,5 %22 septembre 2025Auto-déclaré
14Qwen3 VL 235B A22B ThinkingQwen89,2 %22 septembre 2025Auto-déclaré
15Qwen3 VL 32B ThinkingQwen88,9 %22 septembre 2025Auto-déclaré
16Qwen2.5 VL 72B InstructQwen88,4 %26 janvier 2025Auto-déclaré
17Grok-1.5VxAI88,3 %12 avril 2024Auto-déclaré
18Qwen3 VL 30B A3B ThinkingQwen86,9 %22 septembre 2025Auto-déclaré
19Qwen3 VL 8B InstructQwen85,7 %22 septembre 2025Auto-déclaré
20Qwen3 VL 30B A3B InstructQwen85,0 %22 septembre 2025Auto-déclaré

Classement établi sur 32 modèles évalués, dont 32 de grands éditeurs. Score médian de l'ensemble : 88,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AI2D indique une bonne aptitude à lire des diagrammes, identifier leurs composants et relier ces informations à une question scientifique. La performance reflète donc une combinaison de perception visuelle structurée, de compréhension sémantique et de raisonnement sur des représentations schématiques. Dans la base, le niveau médian atteint déjà 88 %, tandis que le meilleur résultat recensé, Claude 3.5 Sonnet, atteint 95 %, ce qui suggère un benchmark relativement bien maîtrisé par les modèles les plus performants.

L’interprétation du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles si les protocoles d’évaluation ne sont pas entièrement homogènes. La proximité des meilleurs résultats peut aussi traduire une forme de saturation, où de faibles écarts deviennent difficiles à interpréter. D’autres limites tiennent à la portée du jeu, centré sur des diagrammes scolaires en anglais, et au risque général de contamination des données pour les benchmarks publics. Le classement renseigne surtout sur la robustesse des modèles face à des schémas scientifiques structurés, pas sur l’ensemble des capacités multimodales.


Sources des scores : llm-stats.