TheoremQA
TheoremQA est un benchmark de question-réponse conçu par Wenhu Chen et al. pour évaluer la capacité des modèles d’IA à mobiliser des théorèmes scientifiques et mathématiques dans des problèmes de niveau universitaire. Il porte sur des questions ouvertes à réponse courte, souvent…
TheoremQA est un benchmark de question-réponse conçu par Wenhu Chen et al. pour évaluer la capacité des modèles d’IA à mobiliser des théorèmes scientifiques et mathématiques dans des problèmes de niveau universitaire. Il porte sur des questions ouvertes à réponse courte, souvent numériques ou symboliques, avec quelques items en choix ou vrai/faux.
Le jeu met l’accent sur le raisonnement multi-étapes plutôt que sur la simple restitution de connaissances. Il sert ainsi à mesurer si un modèle sait identifier le bon théorème, l’appliquer correctement et produire une réponse concise dans des domaines comme les mathématiques, la physique, l’EE&CS et la finance.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Wenhu Chen et al. |
| Capacités mesurées | finance, mathématiques, physique, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte, principalement numériques ou symboliques, avec certains items de type choix ou vrai/faux |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 800 questions |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen2 72B Instruct | Qwen | 44,4 % | 23 juillet 2024 | Auto-déclaré |
| 2 | Qwen2.5 32B Instruct | Qwen | 44,1 % | 19 septembre 2024 | Auto-déclaré |
| 3 | Qwen2.5-Coder 32B Instruct | Qwen | 43,1 % | 19 septembre 2024 | Auto-déclaré |
| 4 | Qwen2.5 14B Instruct | Qwen | 43,0 % | 19 septembre 2024 | Auto-déclaré |
| 5 | Qwen2.5-Coder 7B Instruct | Qwen | 34,0 % | 19 septembre 2024 | Auto-déclaré |
| 6 | Qwen2 7B Instruct | Qwen | 25,3 % | 23 juillet 2024 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 43,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur TheoremQA indique une meilleure aptitude à relier un énoncé à un théorème pertinent, puis à conduire un raisonnement structuré jusqu’à une réponse courte vérifiable. La métrique d’accuracy rend la comparaison directe, mais elle ne décrit pas la qualité intermédiaire du raisonnement ni les erreurs de méthode. Dans la base considérée, les scores restent regroupés autour d’un niveau médian de 43 %, avec Qwen2 72B Instruct en tête à 44 %, ce qui suggère un classement peu différencié et une marge de progression encore importante sur ce type de tâches. L’interprétation doit rester prudente, car la fiabilité des résultats est majoritairement auto-déclarée par les éditeurs. Le caractère public du jeu peut aussi exposer l’évaluation à des risques de contamination. Enfin, la portée reste ciblée : TheoremQA mesure surtout l’application de théorèmes à des problèmes académiques en anglais, et ne résume pas à lui seul les compétences générales d’un modèle.
Sources des scores : llm-stats.