AI2D
AI2D est un benchmark consacré à la compréhension de diagrammes scientifiques issus des sciences naturelles scolaires. Créé par l’Allen Institute for Artificial Intelligence avec Kembhavi et al., il repose sur des schémas illustratifs accompagnés de questions à choix multiples en anglais.
AI2D est un benchmark consacré à la compréhension de diagrammes scientifiques issus des sciences naturelles scolaires. Créé par l’Allen Institute for Artificial Intelligence avec Kembhavi et al., il repose sur des schémas illustratifs accompagnés de questions à choix multiples en anglais.
Le benchmark mesure la capacité des modèles à interpréter des éléments visuels, des relations spatiales, structurelles et sémantiques, puis à raisonner sur des concepts scientifiques représentés sous forme graphique. Il sert ainsi à évaluer une compétence multimodale spécifique, distincte de la simple reconnaissance d’image ou du raisonnement textuel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Allen Institute for Artificial Intelligence (AI2) / Kembhavi et al. |
| Capacités mesurées | multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 4 903 diagrammes et plus de 15 000 questions à choix multiples |
| Année de publication | 2016 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude 3.5 Sonnet | Anthropic | 94,7 % | 22 octobre 2024 | Auto-déclaré |
| 2 | Qwen3.6 Plus | Qwen | 94,4 % | 31 mars 2026 | Auto-déclaré |
| 3 | GPT-4o | OpenAI | 94,2 % | 27 mars 2025 | Auto-déclaré |
| 4 | Pixtral Large | Mistral AI | 93,8 % | 18 novembre 2024 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 93,3 % | 24 février 2026 | Auto-déclaré |
| 6 | Mistral Small 3.2 24B Instruct | Mistral AI | 92,9 % | 20 juin 2025 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 92,9 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.6-35B-A3B | Qwen | 92,7 % | 16 avril 2026 | Auto-déclaré |
| 9 | Qwen3.5-35B-A3B | Qwen | 92,6 % | 24 février 2026 | Auto-déclaré |
| 10 | Llama 3.2 90B Instruct | Meta | 92,3 % | 25 septembre 2024 | Auto-déclaré |
| 11 | Llama 3.2 11B Instruct | Meta | 91,1 % | 25 septembre 2024 | Auto-déclaré |
| 12 | Qwen3 VL 235B A22B Instruct | Qwen | 89,7 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 32B Instruct | Qwen | 89,5 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 235B A22B Thinking | Qwen | 89,2 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 32B Thinking | Qwen | 88,9 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen2.5 VL 72B Instruct | Qwen | 88,4 % | 26 janvier 2025 | Auto-déclaré |
| 17 | Grok-1.5V | xAI | 88,3 % | 12 avril 2024 | Auto-déclaré |
| 18 | Qwen3 VL 30B A3B Thinking | Qwen | 86,9 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 8B Instruct | Qwen | 85,7 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3 VL 30B A3B Instruct | Qwen | 85,0 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 32 modèles évalués, dont 32 de grands éditeurs. Score médian de l'ensemble : 88,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AI2D indique une bonne aptitude à lire des diagrammes, identifier leurs composants et relier ces informations à une question scientifique. La performance reflète donc une combinaison de perception visuelle structurée, de compréhension sémantique et de raisonnement sur des représentations schématiques. Dans la base, le niveau médian atteint déjà 88 %, tandis que le meilleur résultat recensé, Claude 3.5 Sonnet, atteint 95 %, ce qui suggère un benchmark relativement bien maîtrisé par les modèles les plus performants.
L’interprétation du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles si les protocoles d’évaluation ne sont pas entièrement homogènes. La proximité des meilleurs résultats peut aussi traduire une forme de saturation, où de faibles écarts deviennent difficiles à interpréter. D’autres limites tiennent à la portée du jeu, centré sur des diagrammes scolaires en anglais, et au risque général de contamination des données pour les benchmarks publics. Le classement renseigne surtout sur la robustesse des modèles face à des schémas scientifiques structurés, pas sur l’ensemble des capacités multimodales.
Sources des scores : llm-stats.