HiddenMath

HiddenMath est un benchmark interne de Google DeepMind consacré au raisonnement mathématique de niveau compétition. Il repose sur des problèmes nouveaux, conçus comme un jeu retenu, afin de limiter le risque que les modèles aient déjà rencontré les questions pendant leur entraînement.

HiddenMath est un benchmark interne de Google DeepMind consacré au raisonnement mathématique de niveau compétition. Il repose sur des problèmes nouveaux, conçus comme un jeu retenu, afin de limiter le risque que les modèles aient déjà rencontré les questions pendant leur entraînement.

Son objectif est d’évaluer la capacité d’un modèle à résoudre réellement des problèmes mathématiques, plutôt qu’à restituer des réponses mémorisées. Dans une modelothèque, HiddenMath sert donc de signal spécialisé sur la robustesse du raisonnement formel, avec une attention particulière portée à la contamination des données.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle DeepMind
Capacités mesuréesRaisonnement mathématique de niveau compétition, conçu comme jeu retenu (held-out) pour éviter la contamination/mémorisation des modèles
ModalitéTexte
Type de questionsProblèmes de mathématiques de niveau compétition (jeu de holdout interne)
Métrique d'évaluationAccuracy (présumé)
AccèsJeu de test privé (réponses non divulguées)
Licencepropriétaire
Languesanglais

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 2.0 FlashGoogle63,0 %21 janvier 2025Auto-déclaré
2Gemma 3 27BGoogle60,3 %12 mars 2025Auto-déclaré
3Gemini 2.0 Flash-LiteGoogle55,3 %5 février 2025Auto-déclaré
4Gemma 3 12BGoogle54,5 %12 mars 2025Auto-déclaré
5Gemini 1.5 ProGoogle52,0 %1 mai 2024Auto-déclaré
6Gemini 1.5 FlashGoogle47,2 %1 mai 2024Auto-déclaré
7Gemma 3 4BGoogle43,0 %12 mars 2025Auto-déclaré
8Gemma 3n E4B InstructedGoogle37,7 %26 juin 2025Auto-déclaré
9Gemma 3n E4B Instructed LiteRT PreviewGoogle37,7 %20 mai 2025Auto-déclaré
10Gemini 1.5 Flash 8BGoogle32,8 %15 mars 2024Auto-déclaré
11Gemma 3n E2B InstructedGoogle27,7 %26 juin 2025Auto-déclaré
12Gemma 3n E2B Instructed LiteRT (Preview)Google27,7 %20 mai 2025Auto-déclaré
13Gemma 3 1BGoogle15,8 %12 mars 2025Auto-déclaré

Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 43,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HiddenMath indique une meilleure capacité à traiter des problèmes mathématiques exigeants en anglais, dans un cadre pensé pour réduire la mémorisation. Le meilleur résultat recensé dans la base, Gemini 2.0 Flash à 63 %, se situe au-dessus d’une médiane de 43 %, ce qui suggère une dispersion notable des performances parmi les 13 modèles évalués. L’interprétation doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, et le jeu de test est privé, avec des réponses non divulguées. Cette confidentialité renforce la protection contre la contamination, mais limite aussi la vérifiabilité externe. Le classement reflète surtout les performances de modèles Google, puisque les 13 modèles classés sont édités par Google, créateur du benchmark. HiddenMath n’est donc pas une source indépendante pour comparer les modèles Google à ceux d’autres éditeurs. Sa portée reste spécialisée, centrée sur les mathématiques de compétition, sans prétendre mesurer l’ensemble des capacités générales d’un modèle.


Sources des scores : llm-stats.