Humanity's Last Exam

Humanity's Last Exam est un benchmark académique multimodal conçu par le Center for AI Safety (CAIS) et Scale AI. Il vise à évaluer des modèles sur des questions expertes, vérifiables et issues de domaines variés, notamment les mathématiques, les sciences naturelles, les sciences…

Humanity's Last Exam est un benchmark académique multimodal conçu par le Center for AI Safety (CAIS) et Scale AI. Il vise à évaluer des modèles sur des questions expertes, vérifiables et issues de domaines variés, notamment les mathématiques, les sciences naturelles, les sciences humaines, le raisonnement et l’interprétation visuelle.

Son rôle est de tester les capacités des modèles à la frontière des connaissances humaines, au-delà des tâches généralistes. En combinant questions ouvertes à réponse courte et QCM, il sert de repère pour comparer la performance des modèles sur des problèmes exigeants, où les réponses doivent être non ambiguës et vérifiables.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkCenter for AI Safety (CAIS) et Scale AI
Capacités mesuréesmathématiques, raisonnement, vision
ModalitéMultimodal
Type de questionsquestions académiques multimodales, principalement questions ouvertes à réponse courte et QCM
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeuenviron 2 500 questions
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Mythos PreviewAnthropic64,7 %Auto-déclaré
2Claude Fable 5Anthropic64,5 %9 juin 2026Auto-déclaré
3Muse SparkMeta58,4 %8 avril 2026Auto-déclaré
4Claude Opus 4.8Anthropic57,9 %28 mai 2026Auto-déclaré
5GPT-5.5 ProOpenAI57,2 %23 avril 2026Auto-déclaré
6Seed 2.1 Probytedance55,7 %24 juin 2026Auto-déclaré
7Claude Opus 4.7Anthropic54,7 %12 mai 2026Auto-déclaré
8GLM-5.2Zhipu AI54,7 %16 juin 2026Auto-déclaré
9Seed 2.1 Turbobytedance54,6 %24 juin 2026Auto-déclaré
10Claude Opus 4.6Anthropic53,1 %7 avril 2026Auto-déclaré
11GLM-5.1Zhipu AI52,3 %7 avril 2026Auto-déclaré
12GPT-5.5OpenAI52,2 %23 avril 2026Auto-déclaré
13Gemini 3.1 Pro PreviewGoogle51,4 %19 février 2026Auto-déclaré
14Kimi K2 0905Moonshot AI51,0 %5 septembre 2025Auto-déclaré
15Grok-4 HeavyxAI50,7 %10 juillet 2025Auto-déclaré
16Kimi K2.5Moonshot AI50,2 %27 janvier 2026Auto-déclaré
17Claude Sonnet 4.6Anthropic49,0 %17 février 2026Auto-déclaré
18Qwen3.5-27BQwen48,5 %24 février 2026Auto-déclaré
19DeepSeek-V4-Pro-MaxDeepSeek48,2 %23 avril 2026Auto-déclaré
20Qwen3.5-122B-A10BQwen47,5 %24 février 2026Auto-déclaré

Classement établi sur 86 modèles évalués, dont 64 de grands éditeurs. Score médian de l'ensemble : 25,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Humanity's Last Exam indique une forte capacité à traiter des questions académiques expertes, souvent multimodales, avec une réponse contrôlable par une solution vérifiable. Le classement suggère un écart important entre les meilleurs systèmes et la performance médiane observée dans la base, avec Claude Mythos Preview (Anthropic) en tête à 65 %, tandis que le score médian de l’ensemble est de 25 %. Cette lecture doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les principales limites tiennent aussi à la portée du benchmark, centré sur l’anglais et sur des questions académiques, ainsi qu’aux risques habituels de contamination ou de saturation à mesure que le test devient connu. Humanity's Last Exam révèle donc surtout la capacité relative des modèles à résoudre des tâches expertes vérifiables, sans résumer à lui seul leur utilité générale.


Sources des scores : llm-stats.