Mathématiques

HiddenMath

HiddenMath est un benchmark interne de Google DeepMind consacré au raisonnement mathématique de niveau compétition. Il repose sur des problèmes nouveaux, conçus comme un jeu retenu, afin de limiter le risque que les modèles aient déjà rencontré les questions pendant leur entraînement.

Son objectif est d’évaluer la capacité d’un modèle à résoudre réellement des problèmes mathématiques, plutôt qu’à restituer des réponses mémorisées. Dans une modelothèque, HiddenMath sert donc de signal spécialisé sur la robustesse du raisonnement formel, avec une attention particulière portée à la contamination des données.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google DeepMind
Capacités mesurées	Raisonnement mathématique de niveau compétition, conçu comme jeu retenu (held-out) pour éviter la contamination/mémorisation des modèles
Modalité	Texte
Type de questions	Problèmes de mathématiques de niveau compétition (jeu de holdout interne)
Métrique d'évaluation	Accuracy (présumé)
Accès	Jeu de test privé (réponses non divulguées)
Licence	propriétaire
Langues	anglais

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 2.0 Flash	Google	63,0 %	21 janvier 2025	Auto-déclaré
2	Gemma 3 27B	Google	60,3 %	12 mars 2025	Auto-déclaré
3	Gemini 2.0 Flash-Lite	Google	55,3 %	5 février 2025	Auto-déclaré
4	Gemma 3 12B	Google	54,5 %	12 mars 2025	Auto-déclaré
5	Gemini 1.5 Pro	Google	52,0 %	1 mai 2024	Auto-déclaré
6	Gemini 1.5 Flash	Google	47,2 %	1 mai 2024	Auto-déclaré
7	Gemma 3 4B	Google	43,0 %	12 mars 2025	Auto-déclaré
8	Gemma 3n E4B Instructed	Google	37,7 %	26 juin 2025	Auto-déclaré
9	Gemma 3n E4B Instructed LiteRT Preview	Google	37,7 %	20 mai 2025	Auto-déclaré
10	Gemini 1.5 Flash 8B	Google	32,8 %	15 mars 2024	Auto-déclaré
11	Gemma 3n E2B Instructed	Google	27,7 %	26 juin 2025	Auto-déclaré
12	Gemma 3n E2B Instructed LiteRT (Preview)	Google	27,7 %	20 mai 2025	Auto-déclaré
13	Gemma 3 1B	Google	15,8 %	12 mars 2025	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 43,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HiddenMath indique une meilleure capacité à traiter des problèmes mathématiques exigeants en anglais, dans un cadre pensé pour réduire la mémorisation. Le meilleur résultat recensé dans la base, Gemini 2.0 Flash à 63 %, se situe au-dessus d’une médiane de 43 %, ce qui suggère une dispersion notable des performances parmi les 13 modèles évalués. L’interprétation doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, et le jeu de test est privé, avec des réponses non divulguées. Cette confidentialité renforce la protection contre la contamination, mais limite aussi la vérifiabilité externe. Le classement reflète surtout les performances de modèles Google, puisque les 13 modèles classés sont édités par Google, créateur du benchmark. HiddenMath n’est donc pas une source indépendante pour comparer les modèles Google à ceux d’autres éditeurs. Sa portée reste spécialisée, centrée sur les mathématiques de compétition, sans prétendre mesurer l’ensemble des capacités générales d’un modèle.

Sources des scores : llm-stats.

HiddenMath

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23