PolyMATH

PolyMATH est un benchmark académique de raisonnement mathématique multimodal publié en 2024 par H. Gupta et al., au sein du groupe de Chitta Baral à Arizona State University. Il vise à évaluer les capacités cognitives générales des modèles multimodaux à partir de défis textuels et visuels.

PolyMATH est un benchmark académique de raisonnement mathématique multimodal publié en 2024 par H. Gupta et al., au sein du groupe de Chitta Baral à Arizona State University. Il vise à évaluer les capacités cognitives générales des modèles multimodaux à partir de défis textuels et visuels.

Le benchmark mesure notamment la reconnaissance de motifs, le raisonnement spatial et le raisonnement relatif, sous forme de QCM en anglais. Son rôle est de tester la capacité des modèles à interpréter des informations visuelles et textuelles conjointes, au-delà de la simple restitution de connaissances.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs academiques (H. Gupta et al., groupe de Chitta Baral, Arizona State University)
Capacités mesuréesRaisonnement cognitif multimodal : reconnaissance de motifs, raisonnement spatial et relatif
ModalitéMultimodal
Type de questionsdefis cognitifs textuels et visuels (QCM) repartis en 10 categories
Métrique d'évaluationexactitude (accuracy)
AccèsPublic
Languesanglais
Taille du jeu5 000 images/problemes manuellement collectes, 10 categories
Année de publication2024
RessourcesArticle scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen86,5 %19 mai 2026Auto-déclaré
2Qwen3.7-PlusQwen84,0 %31 mai 2026Auto-déclaré
3Qwen3.6 PlusQwen77,4 %31 mars 2026Auto-déclaré
4Qwen3.5-397B-A17BQwen73,3 %16 février 2026Auto-déclaré
5Qwen3.5-27BQwen71,2 %24 février 2026Auto-déclaré
6Qwen3.5-122B-A10BQwen68,9 %24 février 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen64,4 %24 février 2026Auto-déclaré
8Qwen3-235B-A22B-Thinking-2507Qwen60,1 %25 juillet 2025Auto-déclaré
9Qwen3.5-9BQwen57,3 %2 mars 2026Auto-déclaré
10Qwen3-Next-80B-A3B-ThinkingQwen56,3 %10 septembre 2025Auto-déclaré
11Qwen3 VL 32B ThinkingQwen52,0 %22 septembre 2025Auto-déclaré
12Qwen3 VL 30B A3B ThinkingQwen51,7 %22 septembre 2025Auto-déclaré
13Qwen3.5-4BQwen51,1 %2 mars 2026Auto-déclaré
14Qwen3-235B-A22B-Instruct-2507Qwen50,2 %22 juillet 2025Auto-déclaré
15Qwen3 VL 8B ThinkingQwen47,5 %22 septembre 2025Auto-déclaré
16Qwen3-Next-80B-A3B-InstructQwen45,9 %10 septembre 2025Auto-déclaré
17Qwen3 VL 4B ThinkingQwen44,6 %22 septembre 2025Auto-déclaré
18Qwen3 VL 30B A3B InstructQwen44,3 %22 septembre 2025Auto-déclaré
19Qwen3 VL 32B InstructQwen40,5 %22 septembre 2025Auto-déclaré
20Qwen3 VL 8B InstructQwen30,4 %22 septembre 2025Auto-déclaré

Classement établi sur 23 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 51,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur PolyMATH indique une bonne aptitude à résoudre des problèmes cognitifs multimodaux, en particulier lorsque la réponse dépend de relations visuelles, de motifs ou de configurations spatiales. L’exactitude fournit une mesure directe de performance, mais l’interprétation du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés dans un cadre indépendant unique.

Les principales limites tiennent à la portée du test et à son exposition publique. PolyMATH couvre un ensemble précis de défis en anglais, répartis en catégories cognitives, mais ne résume pas à lui seul toutes les formes de raisonnement mathématique ou multimodal. Comme tout benchmark public, il peut aussi être exposé à des risques de contamination des données d’entraînement. Le classement montre néanmoins un écart net entre les meilleurs systèmes et la médiane de l’ensemble, avec Qwen3.7 Max en tête parmi les modèles suivis, ce qui suggère une forte différenciation des capacités sur ce type de tâches.


Sources des scores : llm-stats.