HiddenMath
HiddenMath est un benchmark interne de Google DeepMind consacré au raisonnement mathématique de niveau compétition. Il repose sur des problèmes nouveaux, conçus comme un jeu retenu, afin de limiter le risque que les modèles aient déjà rencontré les questions pendant leur entraînement.
HiddenMath est un benchmark interne de Google DeepMind consacré au raisonnement mathématique de niveau compétition. Il repose sur des problèmes nouveaux, conçus comme un jeu retenu, afin de limiter le risque que les modèles aient déjà rencontré les questions pendant leur entraînement.
Son objectif est d’évaluer la capacité d’un modèle à résoudre réellement des problèmes mathématiques, plutôt qu’à restituer des réponses mémorisées. Dans une modelothèque, HiddenMath sert donc de signal spécialisé sur la robustesse du raisonnement formel, avec une attention particulière portée à la contamination des données.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google DeepMind |
| Capacités mesurées | Raisonnement mathématique de niveau compétition, conçu comme jeu retenu (held-out) pour éviter la contamination/mémorisation des modèles |
| Modalité | Texte |
| Type de questions | Problèmes de mathématiques de niveau compétition (jeu de holdout interne) |
| Métrique d'évaluation | Accuracy (présumé) |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | propriétaire |
| Langues | anglais |
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 2.0 Flash | 63,0 % | 21 janvier 2025 | Auto-déclaré | |
| 2 | Gemma 3 27B | 60,3 % | 12 mars 2025 | Auto-déclaré | |
| 3 | Gemini 2.0 Flash-Lite | 55,3 % | 5 février 2025 | Auto-déclaré | |
| 4 | Gemma 3 12B | 54,5 % | 12 mars 2025 | Auto-déclaré | |
| 5 | Gemini 1.5 Pro | 52,0 % | 1 mai 2024 | Auto-déclaré | |
| 6 | Gemini 1.5 Flash | 47,2 % | 1 mai 2024 | Auto-déclaré | |
| 7 | Gemma 3 4B | 43,0 % | 12 mars 2025 | Auto-déclaré | |
| 8 | Gemma 3n E4B Instructed | 37,7 % | 26 juin 2025 | Auto-déclaré | |
| 9 | Gemma 3n E4B Instructed LiteRT Preview | 37,7 % | 20 mai 2025 | Auto-déclaré | |
| 10 | Gemini 1.5 Flash 8B | 32,8 % | 15 mars 2024 | Auto-déclaré | |
| 11 | Gemma 3n E2B Instructed | 27,7 % | 26 juin 2025 | Auto-déclaré | |
| 12 | Gemma 3n E2B Instructed LiteRT (Preview) | 27,7 % | 20 mai 2025 | Auto-déclaré | |
| 13 | Gemma 3 1B | 15,8 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 43,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HiddenMath indique une meilleure capacité à traiter des problèmes mathématiques exigeants en anglais, dans un cadre pensé pour réduire la mémorisation. Le meilleur résultat recensé dans la base, Gemini 2.0 Flash à 63 %, se situe au-dessus d’une médiane de 43 %, ce qui suggère une dispersion notable des performances parmi les 13 modèles évalués. L’interprétation doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, et le jeu de test est privé, avec des réponses non divulguées. Cette confidentialité renforce la protection contre la contamination, mais limite aussi la vérifiabilité externe. Le classement reflète surtout les performances de modèles Google, puisque les 13 modèles classés sont édités par Google, créateur du benchmark. HiddenMath n’est donc pas une source indépendante pour comparer les modèles Google à ceux d’autres éditeurs. Sa portée reste spécialisée, centrée sur les mathématiques de compétition, sans prétendre mesurer l’ensemble des capacités générales d’un modèle.
Sources des scores : llm-stats.