GLM-5.1

GLM-5.1 est un LLM de Zhipu AI, publié le 7 avril 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il combine une très grande taille totale, 754 milliards de paramètres, avec 40 milliards de paramètres actifs, dans une fenêtre de contexte de 202…

GLM-5.1 est un LLM de Zhipu AI, publié le 7 avril 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il combine une très grande taille totale, 754 milliards de paramètres, avec 40 milliards de paramètres actifs, dans une fenêtre de contexte de 202 752 tokens.

Son positionnement associe performances solides et coût agressif. Le modèle se place dans le haut de sa génération à sa sortie, notamment sur GPQA diamond, tout en affichant une tarification très économique, inférieure de 50% à la moyenne des LLM similaires.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurZhipu AI
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie7 avril 2026
Multimodalnon
Paramètres754 milliards
Paramètres actifs40 milliards
Fenêtre de contexte202 752 tokens
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index40.218ᵉ / 136
Code Index55.822ᵉ / 50
Agentic Index29.916ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)96,0 %11ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202592,2 %17ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond85,5 %28ᵉ / 132epoch✅ Mesuré
LiveBench: Mathematics84,9 %21ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)83,0 %36ᵉ / 252benchable✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public80,0 %6ᵉ / 64epoch✅ Mesuré
LiveBench: Coding75,4 %24ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified74,2 %16ᵉ / 32epoch✅ Mesuré
LiveBench: Reasoning72,5 %33ᵉ / 76livebench✅ Mesuré
LiveBench: Language71,8 %38ᵉ / 76livebench✅ Mesuré
LiveBench: Global average70,2 %24ᵉ / 76livebench✅ Mesuré
LiveBench: IF68,5 %9ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis63,2 %29ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)59,9 %37ᵉ / 52pinchbench✅ Mesuré
LiveBench: Agentic Coding55,0 %15ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified37,3 %31ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private33,4 %15ᵉ / 69epoch✅ Mesuré
Epoch: Chess Puzzles18,0 %27ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private12,5 %17ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
AIME 202695,3 %3ᵉ / 17llm-statsAuto-déclaré
HMMT 202594,0 %10ᵉ / 33llm-statsAuto-déclaré
GPQA86,2 %35ᵉ / 213llm-statsAuto-déclaré
IMO-AnswerBench83,8 %9ᵉ / 18llm-statsAuto-déclaré
HMMT Feb 2682,6 %11ᵉ / 11llm-statsAuto-déclaré
BrowseComp79,3 %13ᵉ / 51llm-statsAuto-déclaré
MCP Atlas71,8 %14ᵉ / 27llm-statsAuto-déclaré
TAU3-Bench70,6 %3ᵉ / 5llm-statsAuto-déclaré
LiveBench70,2 %29ᵉ / 38llm-statsn.d.
Terminal-Bench 2.069,0 %10ᵉ / 48llm-statsAuto-déclaré
CyberGym68,7 %7ᵉ / 9llm-statsAuto-déclaré
SWE-Bench Pro58,4 %10ᵉ / 34llm-statsAuto-déclaré
Humanity's Last Exam52,3 %11ᵉ / 86llm-statsAuto-déclaré
Finance Agent v244,8 %11ᵉ / 25llm-statsn.d.
GDPval-AA42,7 %14ᵉ / 33llm-statsn.d.
NL2Repo42,7 %5ᵉ / 11llm-statsAuto-déclaré
Toolathlon40,7 %16ᵉ / 23llm-statsAuto-déclaré
FrontierSWE31,0 %9ᵉ / 13llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
▶ GLM-5.140.2
Grok Build 0.1 061639.8

Code Index

GPT-5.471.1
▶ GLM-5.155.8
Grok Build 0.1 061651.5

Classements Arena (Elo)

CatégorieEloRang
Arena Code152911ᵉ
Arena Text147319ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
GMICloud0,98 $3,08 $0,182 $
friendli1,4 $4,4 $n.d.
artificialanalysis1,4 $4,4 $0,26 $

Prix en dollars US par million de tokens.

Sa tarification se situe 50 % en dessous de la moyenne des LLM similaires, et 4,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)16,41 $
Durée d'exécution — PinchBench5 h 11 min
Coût moyen par benchmark — Benchable0,34 $
Latence moyenne par benchmark — Benchable28 min 47 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysChina

Notre analyse

Forces. GLM-5.1 ressort surtout par sa régularité sur les Benchable Baseline liés aux hallucinations, aux connaissances générales et au raisonnement, où il figure dans le tout premier groupe. Le codage constitue aussi un point fort, avec un très bon résultat Benchable Coding et une place élevée en Arena code, ce qui confirme un profil utile pour la génération, la correction et l’analyse de code. Son Intelligence Index le situe parmi les modèles solides de son panel, et son classement à la sortie, dans le top 28% des LLM de sa génération sur GPQA diamond, indique un niveau compétitif pour son époque. Le coût renforce ce positionnement : l’entrée à 0,98 $ par million de tokens et la sortie à 3,08 $ restent nettement sous les modèles haut de gamme.

Limites et points d'attention. Les résultats Ethics et Email Classification sont élevés en score brut, mais leurs rangs les placent loin des meilleurs, ce qui signale une concurrence plus dense sur ces tâches. L’Agentic Index est correct sans placer GLM-5.1 parmi les tout premiers modèles d’agents, et l’Arena text reste moins saillant que l’Arena code. Le modèle convient surtout aux usages recherchant un compromis entre contexte long, coût bas, poids ouverts et bonnes performances générales, plutôt qu’un leadership absolu sur chaque catégorie.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).