Zhipu AI

GLM-5.1

GLM-5.1 est un LLM de Zhipu AI, publié le 7 avril 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il combine une très grande taille totale, 754 milliards de paramètres, avec 40 milliards de paramètres actifs, dans une fenêtre de contexte de 202…

Son positionnement associe performances solides et coût agressif. Le modèle se place dans le haut de sa génération à sa sortie, notamment sur GPQA diamond, tout en affichant une tarification très économique, inférieure de 50% à la moyenne des LLM similaires.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Zhipu AI
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	7 avril 2026
Multimodal	non
Paramètres	754 milliards
Paramètres actifs	40 milliards
Fenêtre de contexte	202 752 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	40.2	18ᵉ / 136
Code Index	55.8	22ᵉ / 50
Agentic Index	29.9	16ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	11ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	92,2 %	17ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	85,5 %	28ᵉ / 132	epoch	✅ Mesuré
LiveBench: Mathematics	84,9 %	21ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	83,0 %	36ᵉ / 252	benchable	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	80,0 %	6ᵉ / 64	epoch	✅ Mesuré
LiveBench: Coding	75,4 %	24ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	74,2 %	16ᵉ / 32	epoch	✅ Mesuré
LiveBench: Reasoning	72,5 %	33ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	71,8 %	38ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	70,2 %	24ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	68,5 %	9ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	63,2 %	29ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	59,9 %	37ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Agentic Coding	55,0 %	15ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	37,3 %	31ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	33,4 %	15ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	18,0 %	27ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	12,5 %	17ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
AIME 2026	95,3 %	3ᵉ / 17	llm-stats	Auto-déclaré
HMMT 2025	94,0 %	10ᵉ / 33	llm-stats	Auto-déclaré
GPQA	86,2 %	35ᵉ / 213	llm-stats	Auto-déclaré
IMO-AnswerBench	83,8 %	9ᵉ / 18	llm-stats	Auto-déclaré
HMMT Feb 26	82,6 %	11ᵉ / 11	llm-stats	Auto-déclaré
BrowseComp	79,3 %	13ᵉ / 51	llm-stats	Auto-déclaré
MCP Atlas	71,8 %	14ᵉ / 27	llm-stats	Auto-déclaré
TAU3-Bench	70,6 %	3ᵉ / 5	llm-stats	Auto-déclaré
LiveBench	70,2 %	29ᵉ / 38	llm-stats	n.d.
Terminal-Bench 2.0	69,0 %	10ᵉ / 48	llm-stats	Auto-déclaré
CyberGym	68,7 %	7ᵉ / 9	llm-stats	Auto-déclaré
SWE-Bench Pro	58,4 %	10ᵉ / 34	llm-stats	Auto-déclaré
Humanity's Last Exam	52,3 %	11ᵉ / 86	llm-stats	Auto-déclaré
Finance Agent v2	44,8 %	11ᵉ / 25	llm-stats	n.d.
GDPval-AA	42,7 %	14ᵉ / 33	llm-stats	n.d.
NL2Repo	42,7 %	5ᵉ / 11	llm-stats	Auto-déclaré
Toolathlon	40,7 %	16ᵉ / 23	llm-stats	Auto-déclaré
FrontierSWE	31,0 %	9ᵉ / 13	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

DeepSeek V4 Pro44.3

▶ GLM-5.140.2

Grok Build 0.1 061639.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

DeepSeek V4 Pro59.4

▶ GLM-5.155.8

Grok Build 0.1 061651.5

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Code	1529	11ᵉ
Arena Text	1473	19ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
GMICloud	0,98 $	3,08 $	0,182 $
friendli	1,4 $	4,4 $	n.d.
artificialanalysis	1,4 $	4,4 $	0,26 $

Prix en dollars US par million de tokens.

Sa tarification se situe 50 % en dessous de la moyenne des LLM similaires, et 4,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	16,41 $
Durée d'exécution — PinchBench	5 h 11 min
Coût moyen par benchmark — Benchable	0,34 $
Latence moyenne par benchmark — Benchable	28 min 47 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	China

Notre analyse

Forces. GLM-5.1 ressort surtout par sa régularité sur les Benchable Baseline liés aux hallucinations, aux connaissances générales et au raisonnement, où il figure dans le tout premier groupe. Le codage constitue aussi un point fort, avec un très bon résultat Benchable Coding et une place élevée en Arena code, ce qui confirme un profil utile pour la génération, la correction et l’analyse de code. Son Intelligence Index le situe parmi les modèles solides de son panel, et son classement à la sortie, dans le top 28% des LLM de sa génération sur GPQA diamond, indique un niveau compétitif pour son époque. Le coût renforce ce positionnement : l’entrée à 0,98 $ par million de tokens et la sortie à 3,08 $ restent nettement sous les modèles haut de gamme.

Limites et points d'attention. Les résultats Ethics et Email Classification sont élevés en score brut, mais leurs rangs les placent loin des meilleurs, ce qui signale une concurrence plus dense sur ces tâches. L’Agentic Index est correct sans placer GLM-5.1 parmi les tout premiers modèles d’agents, et l’Arena text reste moins saillant que l’Arena code. Le modèle convient surtout aux usages recherchant un compromis entre contexte long, coût bas, poids ouverts et bonnes performances générales, plutôt qu’un leadership absolu sur chaque catégorie.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).