PolyMATH
PolyMATH est un benchmark académique de raisonnement mathématique multimodal publié en 2024 par H. Gupta et al., au sein du groupe de Chitta Baral à Arizona State University. Il vise à évaluer les capacités cognitives générales des modèles multimodaux à partir de défis textuels et visuels.
PolyMATH est un benchmark académique de raisonnement mathématique multimodal publié en 2024 par H. Gupta et al., au sein du groupe de Chitta Baral à Arizona State University. Il vise à évaluer les capacités cognitives générales des modèles multimodaux à partir de défis textuels et visuels.
Le benchmark mesure notamment la reconnaissance de motifs, le raisonnement spatial et le raisonnement relatif, sous forme de QCM en anglais. Son rôle est de tester la capacité des modèles à interpréter des informations visuelles et textuelles conjointes, au-delà de la simple restitution de connaissances.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs academiques (H. Gupta et al., groupe de Chitta Baral, Arizona State University) |
| Capacités mesurées | Raisonnement cognitif multimodal : reconnaissance de motifs, raisonnement spatial et relatif |
| Modalité | Multimodal |
| Type de questions | defis cognitifs textuels et visuels (QCM) repartis en 10 categories |
| Métrique d'évaluation | exactitude (accuracy) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 5 000 images/problemes manuellement collectes, 10 categories |
| Année de publication | 2024 |
| Ressources | Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 86,5 % | 19 mai 2026 | Auto-déclaré |
| 2 | Qwen3.7-Plus | Qwen | 84,0 % | 31 mai 2026 | Auto-déclaré |
| 3 | Qwen3.6 Plus | Qwen | 77,4 % | 31 mars 2026 | Auto-déclaré |
| 4 | Qwen3.5-397B-A17B | Qwen | 73,3 % | 16 février 2026 | Auto-déclaré |
| 5 | Qwen3.5-27B | Qwen | 71,2 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 68,9 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 64,4 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 60,1 % | 25 juillet 2025 | Auto-déclaré |
| 9 | Qwen3.5-9B | Qwen | 57,3 % | 2 mars 2026 | Auto-déclaré |
| 10 | Qwen3-Next-80B-A3B-Thinking | Qwen | 56,3 % | 10 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 32B Thinking | Qwen | 52,0 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 30B A3B Thinking | Qwen | 51,7 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3.5-4B | Qwen | 51,1 % | 2 mars 2026 | Auto-déclaré |
| 14 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 50,2 % | 22 juillet 2025 | Auto-déclaré |
| 15 | Qwen3 VL 8B Thinking | Qwen | 47,5 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3-Next-80B-A3B-Instruct | Qwen | 45,9 % | 10 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 4B Thinking | Qwen | 44,6 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 30B A3B Instruct | Qwen | 44,3 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 32B Instruct | Qwen | 40,5 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3 VL 8B Instruct | Qwen | 30,4 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 23 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 51,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur PolyMATH indique une bonne aptitude à résoudre des problèmes cognitifs multimodaux, en particulier lorsque la réponse dépend de relations visuelles, de motifs ou de configurations spatiales. L’exactitude fournit une mesure directe de performance, mais l’interprétation du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés dans un cadre indépendant unique.
Les principales limites tiennent à la portée du test et à son exposition publique. PolyMATH couvre un ensemble précis de défis en anglais, répartis en catégories cognitives, mais ne résume pas à lui seul toutes les formes de raisonnement mathématique ou multimodal. Comme tout benchmark public, il peut aussi être exposé à des risques de contamination des données d’entraînement. Le classement montre néanmoins un écart net entre les meilleurs systèmes et la médiane de l’ensemble, avec Qwen3.7 Max en tête parmi les modèles suivis, ce qui suggère une forte différenciation des capacités sur ce type de tâches.
Sources des scores : llm-stats.