Humanity's Last Exam
Humanity's Last Exam est un benchmark académique multimodal conçu par le Center for AI Safety (CAIS) et Scale AI. Il vise à évaluer des modèles sur des questions expertes, vérifiables et issues de domaines variés, notamment les mathématiques, les sciences naturelles, les sciences…
Humanity's Last Exam est un benchmark académique multimodal conçu par le Center for AI Safety (CAIS) et Scale AI. Il vise à évaluer des modèles sur des questions expertes, vérifiables et issues de domaines variés, notamment les mathématiques, les sciences naturelles, les sciences humaines, le raisonnement et l’interprétation visuelle.
Son rôle est de tester les capacités des modèles à la frontière des connaissances humaines, au-delà des tâches généralistes. En combinant questions ouvertes à réponse courte et QCM, il sert de repère pour comparer la performance des modèles sur des problèmes exigeants, où les réponses doivent être non ambiguës et vérifiables.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Center for AI Safety (CAIS) et Scale AI |
| Capacités mesurées | mathématiques, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | questions académiques multimodales, principalement questions ouvertes à réponse courte et QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | environ 2 500 questions |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 64,7 % | — | Auto-déclaré |
| 2 | Claude Fable 5 | Anthropic | 64,5 % | 9 juin 2026 | Auto-déclaré |
| 3 | Muse Spark | Meta | 58,4 % | 8 avril 2026 | Auto-déclaré |
| 4 | Claude Opus 4.8 | Anthropic | 57,9 % | 28 mai 2026 | Auto-déclaré |
| 5 | GPT-5.5 Pro | OpenAI | 57,2 % | 23 avril 2026 | Auto-déclaré |
| 6 | Seed 2.1 Pro | bytedance | 55,7 % | 24 juin 2026 | Auto-déclaré |
| 7 | Claude Opus 4.7 | Anthropic | 54,7 % | 12 mai 2026 | Auto-déclaré |
| 8 | GLM-5.2 | Zhipu AI | 54,7 % | 16 juin 2026 | Auto-déclaré |
| 9 | Seed 2.1 Turbo | bytedance | 54,6 % | 24 juin 2026 | Auto-déclaré |
| 10 | Claude Opus 4.6 | Anthropic | 53,1 % | 7 avril 2026 | Auto-déclaré |
| 11 | GLM-5.1 | Zhipu AI | 52,3 % | 7 avril 2026 | Auto-déclaré |
| 12 | GPT-5.5 | OpenAI | 52,2 % | 23 avril 2026 | Auto-déclaré |
| 13 | Gemini 3.1 Pro Preview | 51,4 % | 19 février 2026 | Auto-déclaré | |
| 14 | Kimi K2 0905 | Moonshot AI | 51,0 % | 5 septembre 2025 | Auto-déclaré |
| 15 | Grok-4 Heavy | xAI | 50,7 % | 10 juillet 2025 | Auto-déclaré |
| 16 | Kimi K2.5 | Moonshot AI | 50,2 % | 27 janvier 2026 | Auto-déclaré |
| 17 | Claude Sonnet 4.6 | Anthropic | 49,0 % | 17 février 2026 | Auto-déclaré |
| 18 | Qwen3.5-27B | Qwen | 48,5 % | 24 février 2026 | Auto-déclaré |
| 19 | DeepSeek-V4-Pro-Max | DeepSeek | 48,2 % | 23 avril 2026 | Auto-déclaré |
| 20 | Qwen3.5-122B-A10B | Qwen | 47,5 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 86 modèles évalués, dont 64 de grands éditeurs. Score médian de l'ensemble : 25,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Humanity's Last Exam indique une forte capacité à traiter des questions académiques expertes, souvent multimodales, avec une réponse contrôlable par une solution vérifiable. Le classement suggère un écart important entre les meilleurs systèmes et la performance médiane observée dans la base, avec Claude Mythos Preview (Anthropic) en tête à 65 %, tandis que le score médian de l’ensemble est de 25 %. Cette lecture doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les principales limites tiennent aussi à la portée du benchmark, centré sur l’anglais et sur des questions académiques, ainsi qu’aux risques habituels de contamination ou de saturation à mesure que le test devient connu. Humanity's Last Exam révèle donc surtout la capacité relative des modèles à résoudre des tâches expertes vérifiables, sans résumer à lui seul leur utilité générale.
Sources des scores : llm-stats.