Mathématiques

PolyMATH

PolyMATH est un benchmark académique de raisonnement mathématique multimodal publié en 2024 par H. Gupta et al., au sein du groupe de Chitta Baral à Arizona State University. Il vise à évaluer les capacités cognitives générales des modèles multimodaux à partir de défis textuels et visuels.

Le benchmark mesure notamment la reconnaissance de motifs, le raisonnement spatial et le raisonnement relatif, sous forme de QCM en anglais. Son rôle est de tester la capacité des modèles à interpréter des informations visuelles et textuelles conjointes, au-delà de la simple restitution de connaissances.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs academiques (H. Gupta et al., groupe de Chitta Baral, Arizona State University)
Capacités mesurées	Raisonnement cognitif multimodal : reconnaissance de motifs, raisonnement spatial et relatif
Modalité	Multimodal
Type de questions	defis cognitifs textuels et visuels (QCM) repartis en 10 categories
Métrique d'évaluation	exactitude (accuracy)
Accès	Public
Langues	anglais
Taille du jeu	5 000 images/problemes manuellement collectes, 10 categories
Année de publication	2024
Ressources	Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	86,5 %	19 mai 2026	Auto-déclaré
2	Qwen3.7-Plus	Qwen	84,0 %	31 mai 2026	Auto-déclaré
3	Qwen3.6 Plus	Qwen	77,4 %	31 mars 2026	Auto-déclaré
4	Qwen3.5-397B-A17B	Qwen	73,3 %	16 février 2026	Auto-déclaré
5	Qwen3.5-27B	Qwen	71,2 %	24 février 2026	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	68,9 %	24 février 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	64,4 %	24 février 2026	Auto-déclaré
8	Qwen3-235B-A22B-Thinking-2507	Qwen	60,1 %	25 juillet 2025	Auto-déclaré
9	Qwen3.5-9B	Qwen	57,3 %	2 mars 2026	Auto-déclaré
10	Qwen3-Next-80B-A3B-Thinking	Qwen	56,3 %	10 septembre 2025	Auto-déclaré
11	Qwen3 VL 32B Thinking	Qwen	52,0 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 30B A3B Thinking	Qwen	51,7 %	22 septembre 2025	Auto-déclaré
13	Qwen3.5-4B	Qwen	51,1 %	2 mars 2026	Auto-déclaré
14	Qwen3-235B-A22B-Instruct-2507	Qwen	50,2 %	22 juillet 2025	Auto-déclaré
15	Qwen3 VL 8B Thinking	Qwen	47,5 %	22 septembre 2025	Auto-déclaré
16	Qwen3-Next-80B-A3B-Instruct	Qwen	45,9 %	10 septembre 2025	Auto-déclaré
17	Qwen3 VL 4B Thinking	Qwen	44,6 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 30B A3B Instruct	Qwen	44,3 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 32B Instruct	Qwen	40,5 %	22 septembre 2025	Auto-déclaré
20	Qwen3 VL 8B Instruct	Qwen	30,4 %	22 septembre 2025	Auto-déclaré

Classement établi sur 23 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 51,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur PolyMATH indique une bonne aptitude à résoudre des problèmes cognitifs multimodaux, en particulier lorsque la réponse dépend de relations visuelles, de motifs ou de configurations spatiales. L’exactitude fournit une mesure directe de performance, mais l’interprétation du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés dans un cadre indépendant unique.

Les principales limites tiennent à la portée du test et à son exposition publique. PolyMATH couvre un ensemble précis de défis en anglais, répartis en catégories cognitives, mais ne résume pas à lui seul toutes les formes de raisonnement mathématique ou multimodal. Comme tout benchmark public, il peut aussi être exposé à des risques de contamination des données d’entraînement. Le classement montre néanmoins un écart net entre les meilleurs systèmes et la médiane de l’ensemble, avec Qwen3.7 Max en tête parmi les modèles suivis, ce qui suggère une forte différenciation des capacités sur ce type de tâches.

Sources des scores : llm-stats.

PolyMATH

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23