Mathématiques

MathVision

MathVision est un benchmark consacré au raisonnement mathématique multimodal. Créé par l’équipe MATH-Vision (mathllm), il évalue la capacité des modèles à résoudre des problèmes mathématiques qui nécessitent à la fois une compréhension visuelle et un raisonnement formel.

Le benchmark occupe une place spécifique dans l’évaluation des modèles d’IA, car il relie deux domaines souvent testés séparément : l’analyse d’images et la résolution mathématique. Il permet ainsi d’observer si un modèle sait exploiter un contexte visuel pour produire une réponse correcte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Equipe MATH-Vision (mathllm)
Capacités mesurées	Raisonnement mathematique multimodal combinant comprehension visuelle et resolution mathematique
Modalité	Multimodal
Type de questions	problemes mathematiques avec contexte visuel (QCM et reponse ouverte)
Métrique d'évaluation	exactitude (accuracy)
Accès	Public
Langues	anglais
Taille du jeu	3 040 problemes, 16 disciplines, 5 niveaux de difficulte
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	94,5 %	24 juin 2026	Auto-déclaré
2	Kimi K2.6	Moonshot AI	93,2 %	20 avril 2026	Auto-déclaré
3	Seed 2.1 Turbo	bytedance	92,7 %	24 juin 2026	Auto-déclaré
4	Qwen3.7-Plus	Qwen	90,3 %	31 mai 2026	Auto-déclaré
5	Qwen3.6 Plus	Qwen	88,0 %	31 mars 2026	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	86,2 %	24 février 2026	Auto-déclaré
7	Qwen3.5-27B	Qwen	86,0 %	24 février 2026	Auto-déclaré
8	Gemma 4 31B	Google	85,6 %	2 avril 2026	Auto-déclaré
9	Kimi K2.5	Moonshot AI	84,2 %	27 janvier 2026	Auto-déclaré
10	Qwen3.5-35B-A3B	Qwen	83,9 %	24 février 2026	Auto-déclaré
11	Gemma 4 26B-A4B	Google	82,4 %	2 avril 2026	Auto-déclaré
12	Gemma 4 12B	Google	79,7 %	23 mai 2026	Auto-déclaré
13	Qwen3 VL 235B A22B Thinking	Qwen	74,6 %	22 septembre 2025	Auto-déclaré
14	Step3-VL-10B	StepFun	70,8 %	15 janvier 2026	Auto-déclaré
15	DiffusionGemma 26B-A4B	Google	70,5 %	10 juin 2026	Auto-déclaré
16	Qwen3 VL 32B Thinking	Qwen	70,2 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 235B A22B Instruct	Qwen	66,5 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 30B A3B Thinking	Qwen	65,7 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 32B Instruct	Qwen	63,4 %	22 septembre 2025	Auto-déclaré
20	Qwen3 VL 8B Thinking	Qwen	62,7 %	22 septembre 2025	Auto-déclaré

Classement établi sur 31 modèles évalués, dont 26 de grands éditeurs. Score médian de l'ensemble : 70,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MathVision indique qu’un modèle parvient à combiner lecture visuelle, interprétation du problème et calcul ou raisonnement mathématique. Le meilleur résultat recensé dans la base, Seed 2.1 Pro (bytedance) à 94 %, se situe nettement au-dessus du score médian de 70 %, ce qui suggère un écart marqué entre les modèles les plus performants et le reste du classement. L’évaluation doit toutefois être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, plutôt que mesurés de manière indépendante dans un protocole uniforme. MathVision reste aussi limité à des problèmes en anglais et à son périmètre propre, celui des mathématiques avec contexte visuel. Comme pour tout benchmark public, des risques de saturation ou de contamination ne peuvent pas être écartés, en particulier si les modèles ont été exposés à des données proches durant leur entraînement. Le classement révèle surtout la maturité relative des modèles en raisonnement multimodal spécialisé, sans résumer leur compétence générale.

Sources des scores : llm-stats.

MathVision

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench