Mathématiques

Humanity's Last Exam

Humanity's Last Exam est un benchmark académique multimodal conçu par le Center for AI Safety (CAIS) et Scale AI. Il vise à évaluer des modèles sur des questions expertes, vérifiables et issues de domaines variés, notamment les mathématiques, les sciences naturelles, les sciences…

Son rôle est de tester les capacités des modèles à la frontière des connaissances humaines, au-delà des tâches généralistes. En combinant questions ouvertes à réponse courte et QCM, il sert de repère pour comparer la performance des modèles sur des problèmes exigeants, où les réponses doivent être non ambiguës et vérifiables.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Center for AI Safety (CAIS) et Scale AI
Capacités mesurées	mathématiques, raisonnement, vision
Modalité	Multimodal
Type de questions	questions académiques multimodales, principalement questions ouvertes à réponse courte et QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	environ 2 500 questions
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Mythos Preview	Anthropic	64,7 %	—	Auto-déclaré
2	Claude Fable 5	Anthropic	64,5 %	9 juin 2026	Auto-déclaré
3	Muse Spark	Meta	58,4 %	8 avril 2026	Auto-déclaré
4	Claude Opus 4.8	Anthropic	57,9 %	28 mai 2026	Auto-déclaré
5	GPT-5.5 Pro	OpenAI	57,2 %	23 avril 2026	Auto-déclaré
6	Seed 2.1 Pro	bytedance	55,7 %	24 juin 2026	Auto-déclaré
7	Claude Opus 4.7	Anthropic	54,7 %	12 mai 2026	Auto-déclaré
8	GLM-5.2	Zhipu AI	54,7 %	16 juin 2026	Auto-déclaré
9	Seed 2.1 Turbo	bytedance	54,6 %	24 juin 2026	Auto-déclaré
10	Claude Opus 4.6	Anthropic	53,1 %	7 avril 2026	Auto-déclaré
11	GLM-5.1	Zhipu AI	52,3 %	7 avril 2026	Auto-déclaré
12	GPT-5.5	OpenAI	52,2 %	23 avril 2026	Auto-déclaré
13	Gemini 3.1 Pro Preview	Google	51,4 %	19 février 2026	Auto-déclaré
14	Kimi K2 0905	Moonshot AI	51,0 %	5 septembre 2025	Auto-déclaré
15	Grok-4 Heavy	xAI	50,7 %	10 juillet 2025	Auto-déclaré
16	Kimi K2.5	Moonshot AI	50,2 %	27 janvier 2026	Auto-déclaré
17	Claude Sonnet 4.6	Anthropic	49,0 %	17 février 2026	Auto-déclaré
18	Qwen3.5-27B	Qwen	48,5 %	24 février 2026	Auto-déclaré
19	DeepSeek-V4-Pro-Max	DeepSeek	48,2 %	23 avril 2026	Auto-déclaré
20	Qwen3.5-122B-A10B	Qwen	47,5 %	24 février 2026	Auto-déclaré

Classement établi sur 86 modèles évalués, dont 64 de grands éditeurs. Score médian de l'ensemble : 25,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Humanity's Last Exam indique une forte capacité à traiter des questions académiques expertes, souvent multimodales, avec une réponse contrôlable par une solution vérifiable. Le classement suggère un écart important entre les meilleurs systèmes et la performance médiane observée dans la base, avec Claude Mythos Preview (Anthropic) en tête à 65 %, tandis que le score médian de l’ensemble est de 25 %. Cette lecture doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les principales limites tiennent aussi à la portée du benchmark, centré sur l’anglais et sur des questions académiques, ainsi qu’aux risques habituels de contamination ou de saturation à mesure que le test devient connu. Humanity's Last Exam révèle donc surtout la capacité relative des modèles à résoudre des tâches expertes vérifiables, sans résumer à lui seul leur utilité générale.

Sources des scores : llm-stats.

Humanity's Last Exam

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++