Mathématiques

TheoremQA

TheoremQA est un benchmark de question-réponse conçu par Wenhu Chen et al. pour évaluer la capacité des modèles d’IA à mobiliser des théorèmes scientifiques et mathématiques dans des problèmes de niveau universitaire. Il porte sur des questions ouvertes à réponse courte, souvent…

Le jeu met l’accent sur le raisonnement multi-étapes plutôt que sur la simple restitution de connaissances. Il sert ainsi à mesurer si un modèle sait identifier le bon théorème, l’appliquer correctement et produire une réponse concise dans des domaines comme les mathématiques, la physique, l’EE&CS et la finance.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Wenhu Chen et al.
Capacités mesurées	finance, mathématiques, physique, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte, principalement numériques ou symboliques, avec certains items de type choix ou vrai/faux
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	800 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen2 72B Instruct	Qwen	44,4 %	23 juillet 2024	Auto-déclaré
2	Qwen2.5 32B Instruct	Qwen	44,1 %	19 septembre 2024	Auto-déclaré
3	Qwen2.5-Coder 32B Instruct	Qwen	43,1 %	19 septembre 2024	Auto-déclaré
4	Qwen2.5 14B Instruct	Qwen	43,0 %	19 septembre 2024	Auto-déclaré
5	Qwen2.5-Coder 7B Instruct	Qwen	34,0 %	19 septembre 2024	Auto-déclaré
6	Qwen2 7B Instruct	Qwen	25,3 %	23 juillet 2024	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 43,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TheoremQA indique une meilleure aptitude à relier un énoncé à un théorème pertinent, puis à conduire un raisonnement structuré jusqu’à une réponse courte vérifiable. La métrique d’accuracy rend la comparaison directe, mais elle ne décrit pas la qualité intermédiaire du raisonnement ni les erreurs de méthode. Dans la base considérée, les scores restent regroupés autour d’un niveau médian de 43 %, avec Qwen2 72B Instruct en tête à 44 %, ce qui suggère un classement peu différencié et une marge de progression encore importante sur ce type de tâches. L’interprétation doit rester prudente, car la fiabilité des résultats est majoritairement auto-déclarée par les éditeurs. Le caractère public du jeu peut aussi exposer l’évaluation à des risques de contamination. Enfin, la portée reste ciblée : TheoremQA mesure surtout l’application de théorèmes à des problèmes académiques en anglais, et ne résume pas à lui seul les compétences générales d’un modèle.

Sources des scores : llm-stats.

TheoremQA

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23