MathVision
MathVision est un benchmark consacré au raisonnement mathématique multimodal. Créé par l’équipe MATH-Vision (mathllm), il évalue la capacité des modèles à résoudre des problèmes mathématiques qui nécessitent à la fois une compréhension visuelle et un raisonnement formel.
MathVision est un benchmark consacré au raisonnement mathématique multimodal. Créé par l’équipe MATH-Vision (mathllm), il évalue la capacité des modèles à résoudre des problèmes mathématiques qui nécessitent à la fois une compréhension visuelle et un raisonnement formel.
Le benchmark occupe une place spécifique dans l’évaluation des modèles d’IA, car il relie deux domaines souvent testés séparément : l’analyse d’images et la résolution mathématique. Il permet ainsi d’observer si un modèle sait exploiter un contexte visuel pour produire une réponse correcte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Equipe MATH-Vision (mathllm) |
| Capacités mesurées | Raisonnement mathematique multimodal combinant comprehension visuelle et resolution mathematique |
| Modalité | Multimodal |
| Type de questions | problemes mathematiques avec contexte visuel (QCM et reponse ouverte) |
| Métrique d'évaluation | exactitude (accuracy) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 3 040 problemes, 16 disciplines, 5 niveaux de difficulte |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 94,5 % | 24 juin 2026 | Auto-déclaré |
| 2 | Kimi K2.6 | Moonshot AI | 93,2 % | 20 avril 2026 | Auto-déclaré |
| 3 | Seed 2.1 Turbo | bytedance | 92,7 % | 24 juin 2026 | Auto-déclaré |
| 4 | Qwen3.7-Plus | Qwen | 90,3 % | 31 mai 2026 | Auto-déclaré |
| 5 | Qwen3.6 Plus | Qwen | 88,0 % | 31 mars 2026 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 86,2 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 86,0 % | 24 février 2026 | Auto-déclaré |
| 8 | Gemma 4 31B | 85,6 % | 2 avril 2026 | Auto-déclaré | |
| 9 | Kimi K2.5 | Moonshot AI | 84,2 % | 27 janvier 2026 | Auto-déclaré |
| 10 | Qwen3.5-35B-A3B | Qwen | 83,9 % | 24 février 2026 | Auto-déclaré |
| 11 | Gemma 4 26B-A4B | 82,4 % | 2 avril 2026 | Auto-déclaré | |
| 12 | Gemma 4 12B | 79,7 % | 23 mai 2026 | Auto-déclaré | |
| 13 | Qwen3 VL 235B A22B Thinking | Qwen | 74,6 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Step3-VL-10B | StepFun | 70,8 % | 15 janvier 2026 | Auto-déclaré |
| 15 | DiffusionGemma 26B-A4B | 70,5 % | 10 juin 2026 | Auto-déclaré | |
| 16 | Qwen3 VL 32B Thinking | Qwen | 70,2 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 235B A22B Instruct | Qwen | 66,5 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 30B A3B Thinking | Qwen | 65,7 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 32B Instruct | Qwen | 63,4 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3 VL 8B Thinking | Qwen | 62,7 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 31 modèles évalués, dont 26 de grands éditeurs. Score médian de l'ensemble : 70,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MathVision indique qu’un modèle parvient à combiner lecture visuelle, interprétation du problème et calcul ou raisonnement mathématique. Le meilleur résultat recensé dans la base, Seed 2.1 Pro (bytedance) à 94 %, se situe nettement au-dessus du score médian de 70 %, ce qui suggère un écart marqué entre les modèles les plus performants et le reste du classement. L’évaluation doit toutefois être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, plutôt que mesurés de manière indépendante dans un protocole uniforme. MathVision reste aussi limité à des problèmes en anglais et à son périmètre propre, celui des mathématiques avec contexte visuel. Comme pour tout benchmark public, des risques de saturation ou de contamination ne peuvent pas être écartés, en particulier si les modèles ont été exposés à des données proches durant leur entraînement. Le classement révèle surtout la maturité relative des modèles en raisonnement multimodal spécialisé, sans résumer leur compétence générale.
Sources des scores : llm-stats.