Vision & multimodal

AI2D

AI2D est un benchmark consacré à la compréhension de diagrammes scientifiques issus des sciences naturelles scolaires. Créé par l’Allen Institute for Artificial Intelligence avec Kembhavi et al., il repose sur des schémas illustratifs accompagnés de questions à choix multiples en anglais.

Le benchmark mesure la capacité des modèles à interpréter des éléments visuels, des relations spatiales, structurelles et sémantiques, puis à raisonner sur des concepts scientifiques représentés sous forme graphique. Il sert ainsi à évaluer une compétence multimodale spécifique, distincte de la simple reconnaissance d’image ou du raisonnement textuel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Allen Institute for Artificial Intelligence (AI2) / Kembhavi et al.
Capacités mesurées	multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	4 903 diagrammes et plus de 15 000 questions à choix multiples
Année de publication	2016
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude 3.5 Sonnet	Anthropic	94,7 %	22 octobre 2024	Auto-déclaré
2	Qwen3.6 Plus	Qwen	94,4 %	31 mars 2026	Auto-déclaré
3	GPT-4o	OpenAI	94,2 %	27 mars 2025	Auto-déclaré
4	Pixtral Large	Mistral AI	93,8 %	18 novembre 2024	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	93,3 %	24 février 2026	Auto-déclaré
6	Mistral Small 3.2 24B Instruct	Mistral AI	92,9 %	20 juin 2025	Auto-déclaré
7	Qwen3.5-27B	Qwen	92,9 %	24 février 2026	Auto-déclaré
8	Qwen3.6-35B-A3B	Qwen	92,7 %	16 avril 2026	Auto-déclaré
9	Qwen3.5-35B-A3B	Qwen	92,6 %	24 février 2026	Auto-déclaré
10	Llama 3.2 90B Instruct	Meta	92,3 %	25 septembre 2024	Auto-déclaré
11	Llama 3.2 11B Instruct	Meta	91,1 %	25 septembre 2024	Auto-déclaré
12	Qwen3 VL 235B A22B Instruct	Qwen	89,7 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 32B Instruct	Qwen	89,5 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 235B A22B Thinking	Qwen	89,2 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 32B Thinking	Qwen	88,9 %	22 septembre 2025	Auto-déclaré
16	Qwen2.5 VL 72B Instruct	Qwen	88,4 %	26 janvier 2025	Auto-déclaré
17	Grok-1.5V	xAI	88,3 %	12 avril 2024	Auto-déclaré
18	Qwen3 VL 30B A3B Thinking	Qwen	86,9 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 8B Instruct	Qwen	85,7 %	22 septembre 2025	Auto-déclaré
20	Qwen3 VL 30B A3B Instruct	Qwen	85,0 %	22 septembre 2025	Auto-déclaré

Classement établi sur 32 modèles évalués, dont 32 de grands éditeurs. Score médian de l'ensemble : 88,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AI2D indique une bonne aptitude à lire des diagrammes, identifier leurs composants et relier ces informations à une question scientifique. La performance reflète donc une combinaison de perception visuelle structurée, de compréhension sémantique et de raisonnement sur des représentations schématiques. Dans la base, le niveau médian atteint déjà 88 %, tandis que le meilleur résultat recensé, Claude 3.5 Sonnet, atteint 95 %, ce qui suggère un benchmark relativement bien maîtrisé par les modèles les plus performants.

L’interprétation du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles si les protocoles d’évaluation ne sont pas entièrement homogènes. La proximité des meilleurs résultats peut aussi traduire une forme de saturation, où de faibles écarts deviennent difficiles à interpréter. D’autres limites tiennent à la portée du jeu, centré sur des diagrammes scolaires en anglais, et au risque général de contamination des données pour les benchmarks publics. Le classement renseigne surtout sur la robustesse des modèles face à des schémas scientifiques structurés, pas sur l’ensemble des capacités multimodales.

Sources des scores : llm-stats.

AI2D

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench