MathVista-Mini
MathVista-Mini est un benchmark multimodal de mathématiques publié en 2023 par Pan Lu et al. Il évalue la capacité des modèles à résoudre des problèmes qui exigent simultanément compréhension visuelle, raisonnement quantitatif et interprétation de diagrammes, tableaux, figures ou scènes.
MathVista-Mini est un benchmark multimodal de mathématiques publié en 2023 par Pan Lu et al. Il évalue la capacité des modèles à résoudre des problèmes qui exigent simultanément compréhension visuelle, raisonnement quantitatif et interprétation de diagrammes, tableaux, figures ou scènes.
Version réduite de MathVista, il sert à tester les modèles de fondation dans des contextes où l’information utile est à la fois textuelle, visuelle et mathématique. Les questions combinent QCM et réponses courtes, avec un objectif centré sur la justesse des réponses.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Pan Lu et al. |
| Capacités mesurées | mathématiques, multimodal, vision |
| Modalité | Multimodal |
| Type de questions | questions multimodales de mathématiques, mêlant QCM et réponses courtes |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 1 000 questions |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2.5 | Moonshot AI | 90,1 % | 27 janvier 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 87,8 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-122B-A10B | Qwen | 87,4 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.6-27B | Qwen | 87,4 % | 21 avril 2026 | Auto-déclaré |
| 5 | Qwen3.6-35B-A3B | Qwen | 86,4 % | 16 avril 2026 | Auto-déclaré |
| 6 | Qwen3.5-35B-A3B | Qwen | 86,2 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3 VL 32B Thinking | Qwen | 85,9 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 235B A22B Thinking | Qwen | 85,8 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 235B A22B Instruct | Qwen | 84,9 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 32B Instruct | Qwen | 83,8 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 30B A3B Thinking | Qwen | 81,9 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 8B Thinking | Qwen | 81,4 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Instruct | Qwen | 80,1 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 4B Thinking | Qwen | 79,5 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 8B Instruct | Qwen | 77,2 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen2.5 VL 72B Instruct | Qwen | 74,8 % | 26 janvier 2025 | Auto-déclaré |
| 17 | Qwen2.5 VL 32B Instruct | Qwen | 74,7 % | 28 février 2025 | Auto-déclaré |
| 18 | Qwen3 VL 4B Instruct | Qwen | 73,7 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen2-VL-72B-Instruct | Qwen | 70,5 % | 29 août 2024 | Auto-déclaré |
| 20 | Qwen2.5 VL 7B Instruct | Qwen | 68,2 % | 26 janvier 2025 | Auto-déclaré |
Classement établi sur 23 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MathVista-Mini indique une bonne aptitude à relier des indices visuels à des raisonnements mathématiques, par exemple lorsqu’un modèle doit interpréter une figure ou un tableau avant de calculer une réponse. Le meilleur résultat recensé dans la base atteint 90% avec Kimi K2.5 (Moonshot AI), tandis que la médiane des modèles évalués se situe à 81%, ce qui suggère un niveau déjà élevé parmi les systèmes suivis.
La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement reproduite dans un cadre unique. Le format public et la taille limitée du jeu peuvent aussi accroître les risques de contamination ou de surapprentissage indirect. Avec 1 000 questions en anglais, MathVista-Mini donne un signal utile sur le raisonnement mathématique visuel, mais ne couvre pas toute la diversité des langues, des formats visuels et des tâches mathématiques possibles. L’écart entre la médiane et le meilleur score montre surtout une compétition resserrée en haut du classement.
Sources des scores : llm-stats.