MathVista
MathVista est un benchmark publié en 2023 par P. Lu et al. Il évalue le raisonnement mathématique multimodal des modèles de fondation, en combinant compréhension visuelle et résolution de problèmes mathématiques.
MathVista est un benchmark publié en 2023 par P. Lu et al. Il évalue le raisonnement mathématique multimodal des modèles de fondation, en combinant compréhension visuelle et résolution de problèmes mathématiques.
Le test porte sur des questions visuelles associant figures, diagrammes, graphiques ou images à des calculs et inférences. Il sert à mesurer la capacité d’un modèle à relier perception visuelle, abstraction mathématique et raisonnement rigoureux dans des contextes variés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | P. Lu et al. |
| Capacités mesurées | mathématiques, multimodal, vision |
| Modalité | Multimodal |
| Type de questions | questions visuelles mêlant QCM et réponses courtes ouvertes |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 6 141 exemples |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 90,7 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Turbo | bytedance | 90,5 % | 24 juin 2026 | Auto-déclaré |
| 3 | o3 | OpenAI | 86,8 % | 16 avril 2025 | Auto-déclaré |
| 4 | o4-mini | OpenAI | 84,3 % | 16 avril 2025 | Auto-déclaré |
| 5 | Step3-VL-10B | StepFun | 84,0 % | 15 janvier 2026 | Auto-déclaré |
| 6 | Command A+ | cohere | 80,6 % | 20 mai 2026 | Auto-déclaré |
| 7 | Kimi-k1.5 | Moonshot AI | 74,9 % | 20 janvier 2025 | Auto-déclaré |
| 8 | Llama 4 Maverick | Meta | 73,7 % | 5 avril 2025 | Auto-déclaré |
| 9 | GPT-4.1 mini | OpenAI | 73,1 % | 14 avril 2025 | Auto-déclaré |
| 10 | GPT-5.4 | OpenAI | 72,3 % | 5 mars 2026 | Auto-déclaré |
| 11 | GPT-4.1 | OpenAI | 72,2 % | 14 avril 2025 | Auto-déclaré |
| 12 | o1 | OpenAI | 71,8 % | 17 décembre 2024 | Auto-déclaré |
| 13 | QvQ-72B-Preview | Qwen | 71,4 % | 25 décembre 2024 | Auto-déclaré |
| 14 | Llama 4 Scout | Meta | 70,7 % | 5 avril 2025 | Auto-déclaré |
| 15 | Pixtral Large | Mistral AI | 69,4 % | 18 novembre 2024 | Auto-déclaré |
| 16 | Grok-2 | xAI | 69,0 % | 13 août 2024 | Auto-déclaré |
| 17 | Gemini 1.5 Pro | 68,1 % | 1 mai 2024 | Auto-déclaré | |
| 18 | Grok-2 mini | xAI | 68,1 % | 13 août 2024 | Auto-déclaré |
| 19 | Qwen2.5-Omni-7B | Qwen | 67,9 % | 27 mars 2025 | Auto-déclaré |
| 20 | Claude 3.5 Sonnet | Anthropic | 67,7 % | 22 octobre 2024 | Auto-déclaré |
Classement établi sur 38 modèles évalués, dont 33 de grands éditeurs. Score médian de l'ensemble : 67,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MathVista indique une forte capacité à interpréter des supports visuels complexes et à produire des réponses mathématiquement correctes, aussi bien dans des formats de QCM que de réponses courtes. Le classement de la base montre un écart notable entre la médiane, située à 68 %, et le meilleur score observé, Seed 2.1 Pro (bytedance) à 91 %, ce qui suggère que le benchmark reste discriminant pour une partie des modèles évalués.
La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte en l’absence de protocole de vérification homogène. MathVista couvre un large ensemble de tâches visuelles et mathématiques, mais reste centré sur l’anglais et sur les types de problèmes présents dans ses jeux sources et ses jeux nouvellement créés. Comme pour tout benchmark public, une saturation progressive ou une contamination des données d’entraînement peut aussi réduire sa valeur différenciante au fil du temps.
Sources des scores : llm-stats.