DynaMath
DynaMath est un benchmark de raisonnement mathématique multimodal publié par l’University of Illinois Urbana-Champaign. Il évalue la capacité des modèles à résoudre des problèmes visuels dont les éléments numériques, textuels ou graphiques varient de manière dynamique.
DynaMath est un benchmark de raisonnement mathématique multimodal publié par l’University of Illinois Urbana-Champaign. Il évalue la capacité des modèles à résoudre des problèmes visuels dont les éléments numériques, textuels ou graphiques varient de manière dynamique.
Le benchmark vise surtout la robustesse, en testant si un modèle conserve un raisonnement correct face à plusieurs variantes d’une même question-graine. Il sert ainsi à compléter les évaluations mathématiques classiques, plus statiques, en mettant l’accent sur la stabilité des réponses dans des contextes visuels générés par programme.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | University of Illinois Urbana-Champaign (UIUC) |
| Capacités mesurées | Robustesse du raisonnement mathématique multimodal face à des variations visuelles/textuelles (valeurs numériques, graphes de fonctions) |
| Modalité | Multimodal |
| Type de questions | raisonnement mathématique visuel (variantes dynamiques générées par programme) |
| Métrique d'évaluation | exactitude moyenne et exactitude au pire cas (worst-case accuracy sur les 10 variantes) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 501 questions-germes → 5 010 questions concrètes (10 variantes chacune) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 88,0 % | 31 mars 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 87,7 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-122B-A10B | Qwen | 85,9 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.6-27B | Qwen | 85,6 % | 21 avril 2026 | Auto-déclaré |
| 5 | Qwen3.5-35B-A3B | Qwen | 85,0 % | 24 février 2026 | Auto-déclaré |
| 6 | Seed 2.1 Pro | bytedance | 73,1 % | 24 juin 2026 | Auto-déclaré |
| 7 | Seed 2.1 Turbo | bytedance | 68,1 % | 24 juin 2026 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 85,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur DynaMath indique qu’un modèle parvient à maintenir une exactitude forte sur des problèmes mathématiques visuels soumis à des variations contrôlées. La métrique au pire cas est particulièrement importante, car elle pénalise les modèles qui réussissent certaines variantes mais échouent dès que les valeurs numériques, le texte ou le graphe changent. L’évaluation est donc plus exigeante qu’une simple moyenne, même si les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité sans réplication indépendante. Le classement actuel apparaît resserré, avec une médiane élevée et un meilleur score seulement légèrement supérieur, ce qui peut suggérer une forme de saturation sur l’ensemble suivi. La nature publique du benchmark impose aussi de considérer le risque de contamination. Sa portée reste ciblée : DynaMath éclaire la robustesse du raisonnement mathématique multimodal en anglais, sans couvrir l’ensemble des compétences générales d’un modèle.
Sources des scores : llm-stats.