MathVista-Mini

MathVista-Mini est un benchmark multimodal de mathématiques publié en 2023 par Pan Lu et al. Il évalue la capacité des modèles à résoudre des problèmes qui exigent simultanément compréhension visuelle, raisonnement quantitatif et interprétation de diagrammes, tableaux, figures ou scènes.

MathVista-Mini est un benchmark multimodal de mathématiques publié en 2023 par Pan Lu et al. Il évalue la capacité des modèles à résoudre des problèmes qui exigent simultanément compréhension visuelle, raisonnement quantitatif et interprétation de diagrammes, tableaux, figures ou scènes.

Version réduite de MathVista, il sert à tester les modèles de fondation dans des contextes où l’information utile est à la fois textuelle, visuelle et mathématique. Les questions combinent QCM et réponses courtes, avec un objectif centré sur la justesse des réponses.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkPan Lu et al.
Capacités mesuréesmathématiques, multimodal, vision
ModalitéMultimodal
Type de questionsquestions multimodales de mathématiques, mêlant QCM et réponses courtes
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu1 000 questions
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2.5Moonshot AI90,1 %27 janvier 2026Auto-déclaré
2Qwen3.5-27BQwen87,8 %24 février 2026Auto-déclaré
3Qwen3.5-122B-A10BQwen87,4 %24 février 2026Auto-déclaré
4Qwen3.6-27BQwen87,4 %21 avril 2026Auto-déclaré
5Qwen3.6-35B-A3BQwen86,4 %16 avril 2026Auto-déclaré
6Qwen3.5-35B-A3BQwen86,2 %24 février 2026Auto-déclaré
7Qwen3 VL 32B ThinkingQwen85,9 %22 septembre 2025Auto-déclaré
8Qwen3 VL 235B A22B ThinkingQwen85,8 %22 septembre 2025Auto-déclaré
9Qwen3 VL 235B A22B InstructQwen84,9 %22 septembre 2025Auto-déclaré
10Qwen3 VL 32B InstructQwen83,8 %22 septembre 2025Auto-déclaré
11Qwen3 VL 30B A3B ThinkingQwen81,9 %22 septembre 2025Auto-déclaré
12Qwen3 VL 8B ThinkingQwen81,4 %22 septembre 2025Auto-déclaré
13Qwen3 VL 30B A3B InstructQwen80,1 %22 septembre 2025Auto-déclaré
14Qwen3 VL 4B ThinkingQwen79,5 %22 septembre 2025Auto-déclaré
15Qwen3 VL 8B InstructQwen77,2 %22 septembre 2025Auto-déclaré
16Qwen2.5 VL 72B InstructQwen74,8 %26 janvier 2025Auto-déclaré
17Qwen2.5 VL 32B InstructQwen74,7 %28 février 2025Auto-déclaré
18Qwen3 VL 4B InstructQwen73,7 %22 septembre 2025Auto-déclaré
19Qwen2-VL-72B-InstructQwen70,5 %29 août 2024Auto-déclaré
20Qwen2.5 VL 7B InstructQwen68,2 %26 janvier 2025Auto-déclaré

Classement établi sur 23 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MathVista-Mini indique une bonne aptitude à relier des indices visuels à des raisonnements mathématiques, par exemple lorsqu’un modèle doit interpréter une figure ou un tableau avant de calculer une réponse. Le meilleur résultat recensé dans la base atteint 90% avec Kimi K2.5 (Moonshot AI), tandis que la médiane des modèles évalués se situe à 81%, ce qui suggère un niveau déjà élevé parmi les systèmes suivis.

La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement reproduite dans un cadre unique. Le format public et la taille limitée du jeu peuvent aussi accroître les risques de contamination ou de surapprentissage indirect. Avec 1 000 questions en anglais, MathVista-Mini donne un signal utile sur le raisonnement mathématique visuel, mais ne couvre pas toute la diversité des langues, des formats visuels et des tâches mathématiques possibles. L’écart entre la médiane et le meilleur score montre surtout une compétition resserrée en haut du classement.


Sources des scores : llm-stats.