MathVision

MathVision est un benchmark consacré au raisonnement mathématique multimodal. Créé par l’équipe MATH-Vision (mathllm), il évalue la capacité des modèles à résoudre des problèmes mathématiques qui nécessitent à la fois une compréhension visuelle et un raisonnement formel.

MathVision est un benchmark consacré au raisonnement mathématique multimodal. Créé par l’équipe MATH-Vision (mathllm), il évalue la capacité des modèles à résoudre des problèmes mathématiques qui nécessitent à la fois une compréhension visuelle et un raisonnement formel.

Le benchmark occupe une place spécifique dans l’évaluation des modèles d’IA, car il relie deux domaines souvent testés séparément : l’analyse d’images et la résolution mathématique. Il permet ainsi d’observer si un modèle sait exploiter un contexte visuel pour produire une réponse correcte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEquipe MATH-Vision (mathllm)
Capacités mesuréesRaisonnement mathematique multimodal combinant comprehension visuelle et resolution mathematique
ModalitéMultimodal
Type de questionsproblemes mathematiques avec contexte visuel (QCM et reponse ouverte)
Métrique d'évaluationexactitude (accuracy)
AccèsPublic
Languesanglais
Taille du jeu3 040 problemes, 16 disciplines, 5 niveaux de difficulte
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance94,5 %24 juin 2026Auto-déclaré
2Kimi K2.6Moonshot AI93,2 %20 avril 2026Auto-déclaré
3Seed 2.1 Turbobytedance92,7 %24 juin 2026Auto-déclaré
4Qwen3.7-PlusQwen90,3 %31 mai 2026Auto-déclaré
5Qwen3.6 PlusQwen88,0 %31 mars 2026Auto-déclaré
6Qwen3.5-122B-A10BQwen86,2 %24 février 2026Auto-déclaré
7Qwen3.5-27BQwen86,0 %24 février 2026Auto-déclaré
8Gemma 4 31BGoogle85,6 %2 avril 2026Auto-déclaré
9Kimi K2.5Moonshot AI84,2 %27 janvier 2026Auto-déclaré
10Qwen3.5-35B-A3BQwen83,9 %24 février 2026Auto-déclaré
11Gemma 4 26B-A4BGoogle82,4 %2 avril 2026Auto-déclaré
12Gemma 4 12BGoogle79,7 %23 mai 2026Auto-déclaré
13Qwen3 VL 235B A22B ThinkingQwen74,6 %22 septembre 2025Auto-déclaré
14Step3-VL-10BStepFun70,8 %15 janvier 2026Auto-déclaré
15DiffusionGemma 26B-A4BGoogle70,5 %10 juin 2026Auto-déclaré
16Qwen3 VL 32B ThinkingQwen70,2 %22 septembre 2025Auto-déclaré
17Qwen3 VL 235B A22B InstructQwen66,5 %22 septembre 2025Auto-déclaré
18Qwen3 VL 30B A3B ThinkingQwen65,7 %22 septembre 2025Auto-déclaré
19Qwen3 VL 32B InstructQwen63,4 %22 septembre 2025Auto-déclaré
20Qwen3 VL 8B ThinkingQwen62,7 %22 septembre 2025Auto-déclaré

Classement établi sur 31 modèles évalués, dont 26 de grands éditeurs. Score médian de l'ensemble : 70,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MathVision indique qu’un modèle parvient à combiner lecture visuelle, interprétation du problème et calcul ou raisonnement mathématique. Le meilleur résultat recensé dans la base, Seed 2.1 Pro (bytedance) à 94 %, se situe nettement au-dessus du score médian de 70 %, ce qui suggère un écart marqué entre les modèles les plus performants et le reste du classement. L’évaluation doit toutefois être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, plutôt que mesurés de manière indépendante dans un protocole uniforme. MathVision reste aussi limité à des problèmes en anglais et à son périmètre propre, celui des mathématiques avec contexte visuel. Comme pour tout benchmark public, des risques de saturation ou de contamination ne peuvent pas être écartés, en particulier si les modèles ont été exposés à des données proches durant leur entraînement. Le classement révèle surtout la maturité relative des modèles en raisonnement multimodal spécialisé, sans résumer leur compétence générale.


Sources des scores : llm-stats.