Mathématiques

MathVista-Mini

MathVista-Mini est un benchmark multimodal de mathématiques publié en 2023 par Pan Lu et al. Il évalue la capacité des modèles à résoudre des problèmes qui exigent simultanément compréhension visuelle, raisonnement quantitatif et interprétation de diagrammes, tableaux, figures ou scènes.

Version réduite de MathVista, il sert à tester les modèles de fondation dans des contextes où l’information utile est à la fois textuelle, visuelle et mathématique. Les questions combinent QCM et réponses courtes, avec un objectif centré sur la justesse des réponses.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Pan Lu et al.
Capacités mesurées	mathématiques, multimodal, vision
Modalité	Multimodal
Type de questions	questions multimodales de mathématiques, mêlant QCM et réponses courtes
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	1 000 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2.5	Moonshot AI	90,1 %	27 janvier 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	87,8 %	24 février 2026	Auto-déclaré
3	Qwen3.5-122B-A10B	Qwen	87,4 %	24 février 2026	Auto-déclaré
4	Qwen3.6-27B	Qwen	87,4 %	21 avril 2026	Auto-déclaré
5	Qwen3.6-35B-A3B	Qwen	86,4 %	16 avril 2026	Auto-déclaré
6	Qwen3.5-35B-A3B	Qwen	86,2 %	24 février 2026	Auto-déclaré
7	Qwen3 VL 32B Thinking	Qwen	85,9 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 235B A22B Thinking	Qwen	85,8 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 235B A22B Instruct	Qwen	84,9 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 32B Instruct	Qwen	83,8 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 30B A3B Thinking	Qwen	81,9 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 8B Thinking	Qwen	81,4 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Instruct	Qwen	80,1 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 4B Thinking	Qwen	79,5 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 8B Instruct	Qwen	77,2 %	22 septembre 2025	Auto-déclaré
16	Qwen2.5 VL 72B Instruct	Qwen	74,8 %	26 janvier 2025	Auto-déclaré
17	Qwen2.5 VL 32B Instruct	Qwen	74,7 %	28 février 2025	Auto-déclaré
18	Qwen3 VL 4B Instruct	Qwen	73,7 %	22 septembre 2025	Auto-déclaré
19	Qwen2-VL-72B-Instruct	Qwen	70,5 %	29 août 2024	Auto-déclaré
20	Qwen2.5 VL 7B Instruct	Qwen	68,2 %	26 janvier 2025	Auto-déclaré

Classement établi sur 23 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MathVista-Mini indique une bonne aptitude à relier des indices visuels à des raisonnements mathématiques, par exemple lorsqu’un modèle doit interpréter une figure ou un tableau avant de calculer une réponse. Le meilleur résultat recensé dans la base atteint 90% avec Kimi K2.5 (Moonshot AI), tandis que la médiane des modèles évalués se situe à 81%, ce qui suggère un niveau déjà élevé parmi les systèmes suivis.

La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement reproduite dans un cadre unique. Le format public et la taille limitée du jeu peuvent aussi accroître les risques de contamination ou de surapprentissage indirect. Avec 1 000 questions en anglais, MathVista-Mini donne un signal utile sur le raisonnement mathématique visuel, mais ne couvre pas toute la diversité des langues, des formats visuels et des tâches mathématiques possibles. L’écart entre la médiane et le meilleur score montre surtout une compétition resserrée en haut du classement.

Sources des scores : llm-stats.

MathVista-Mini

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench