Mathématiques

MathVista

MathVista est un benchmark publié en 2023 par P. Lu et al. Il évalue le raisonnement mathématique multimodal des modèles de fondation, en combinant compréhension visuelle et résolution de problèmes mathématiques.

Le test porte sur des questions visuelles associant figures, diagrammes, graphiques ou images à des calculs et inférences. Il sert à mesurer la capacité d’un modèle à relier perception visuelle, abstraction mathématique et raisonnement rigoureux dans des contextes variés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	P. Lu et al.
Capacités mesurées	mathématiques, multimodal, vision
Modalité	Multimodal
Type de questions	questions visuelles mêlant QCM et réponses courtes ouvertes
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	6 141 exemples
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	90,7 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Turbo	bytedance	90,5 %	24 juin 2026	Auto-déclaré
3	o3	OpenAI	86,8 %	16 avril 2025	Auto-déclaré
4	o4-mini	OpenAI	84,3 %	16 avril 2025	Auto-déclaré
5	Step3-VL-10B	StepFun	84,0 %	15 janvier 2026	Auto-déclaré
6	Command A+	cohere	80,6 %	20 mai 2026	Auto-déclaré
7	Kimi-k1.5	Moonshot AI	74,9 %	20 janvier 2025	Auto-déclaré
8	Llama 4 Maverick	Meta	73,7 %	5 avril 2025	Auto-déclaré
9	GPT-4.1 mini	OpenAI	73,1 %	14 avril 2025	Auto-déclaré
10	GPT-5.4	OpenAI	72,3 %	5 mars 2026	Auto-déclaré
11	GPT-4.1	OpenAI	72,2 %	14 avril 2025	Auto-déclaré
12	o1	OpenAI	71,8 %	17 décembre 2024	Auto-déclaré
13	QvQ-72B-Preview	Qwen	71,4 %	25 décembre 2024	Auto-déclaré
14	Llama 4 Scout	Meta	70,7 %	5 avril 2025	Auto-déclaré
15	Pixtral Large	Mistral AI	69,4 %	18 novembre 2024	Auto-déclaré
16	Grok-2	xAI	69,0 %	13 août 2024	Auto-déclaré
17	Gemini 1.5 Pro	Google	68,1 %	1 mai 2024	Auto-déclaré
18	Grok-2 mini	xAI	68,1 %	13 août 2024	Auto-déclaré
19	Qwen2.5-Omni-7B	Qwen	67,9 %	27 mars 2025	Auto-déclaré
20	Claude 3.5 Sonnet	Anthropic	67,7 %	22 octobre 2024	Auto-déclaré

Classement établi sur 38 modèles évalués, dont 33 de grands éditeurs. Score médian de l'ensemble : 67,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MathVista indique une forte capacité à interpréter des supports visuels complexes et à produire des réponses mathématiquement correctes, aussi bien dans des formats de QCM que de réponses courtes. Le classement de la base montre un écart notable entre la médiane, située à 68 %, et le meilleur score observé, Seed 2.1 Pro (bytedance) à 91 %, ce qui suggère que le benchmark reste discriminant pour une partie des modèles évalués.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte en l’absence de protocole de vérification homogène. MathVista couvre un large ensemble de tâches visuelles et mathématiques, mais reste centré sur l’anglais et sur les types de problèmes présents dans ses jeux sources et ses jeux nouvellement créés. Comme pour tout benchmark public, une saturation progressive ou une contamination des données d’entraînement peut aussi réduire sa valeur différenciante au fil du temps.

Sources des scores : llm-stats.

MathVista

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23