Zhipu AI

GLM-4.5

GLM-4.5 est un LLM de Zhipu AI publié le 28 juillet 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte, des connaissances arrêtées au 31 décembre 2024 et un positionnement tarifaire très économique.

Son entraînement revendique 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100, l’équivalent d’environ 570 GPU H100 mobilisés pendant trois mois. À sa sortie, GLM-4.5 se situait dans le top 17% de sa génération sur GPQA.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Zhipu AI
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	28 juillet 2025
Connaissances jusqu'à	2024-12-31
Multimodal	non
Paramètres	355 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	157ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	94,0 %	126ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	93,0 %	224ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	92,9 %	77ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	90,0 %	85ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	72,7 %	77ᵉ / 252	benchable	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
MATH-500	98,2 %	3ᵉ / 31	llm-stats	Auto-déclaré
AIME 2024	91,0 %	8ᵉ / 52	llm-stats	Auto-déclaré
MMLU-Pro	84,6 %	23ᵉ / 125	llm-stats	Auto-déclaré
TAU-bench Retail	79,7 %	6ᵉ / 24	llm-stats	Auto-déclaré
GPQA	79,1 %	77ᵉ / 213	llm-stats	Auto-déclaré
BFCL-v3	77,8 %	1ᵉ / 19	llm-stats	Auto-déclaré
LiveCodeBench	72,9 %	18ᵉ / 72	llm-stats	Auto-déclaré
AA-Index	67,7 %	1ᵉ / 3	llm-stats	Auto-déclaré
SWE-Bench Verified	64,2 %	71ᵉ / 100	llm-stats	Auto-déclaré
TAU-bench Airline	60,4 %	3ᵉ / 22	llm-stats	Auto-déclaré
SciCode	41,7 %	11ᵉ / 18	llm-stats	Auto-déclaré
Terminal-Bench	37,5 %	12ᵉ / 25	llm-stats	Auto-déclaré
BrowseComp	26,4 %	49ᵉ / 51	llm-stats	Auto-déclaré
Humanity's Last Exam	14,4 %	68ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ GLM-4.5100 %

DeepSeek R1 Distill Lla…100 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ GLM-4.599 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1411	108ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Z.ai	0,6 $	2,2 $	0,11 $

Prix en dollars US par million de tokens.

Sa tarification se situe 69 % en dessous de la moyenne des LLM similaires, et 8,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,14 $
Latence moyenne par benchmark — Benchable	42 min 55 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	4,4 × 10²⁴ FLOP
Taille du jeu d'entraînement	2,3 × 10¹³
Jeu de données	Unspecified unreleased
Pays	China,China

Notre analyse

Forces. GLM-4.5 affiche un profil solide en connaissances générales, où il apparaît dans le top 10 de Benchable General Knowledge (Baseline). Ses résultats sont également élevés en Mathematics (Baseline) et en Coding (Baseline), deux usages structurants pour un LLM généraliste orienté raisonnement et production technique. Le score Hallucinations (Baseline) reste bon, ce qui indique une tenue correcte sur les tâches évaluant la fiabilité des réponses. La licence MIT, les poids ouverts et l’autorisation d’usage commercial renforcent son intérêt pour des déploiements maîtrisés. Son tarif constitue un autre point fort concret : il est indiqué comme 69% inférieur à la moyenne des LLM similaires et environ 8,1 fois moins cher que les modèles frontière.

Limites et points d'attention. Les classements Benchable montrent un modèle inégal selon les tâches : Ethics (Baseline) et Email Classification (Baseline) sont loin des meilleurs rangs malgré des scores élevés, signe d’un plateau de performance ou d’une concurrence dense sur ces tests. Arena text place GLM-4.5 dans une zone intermédiaire plutôt que parmi les modèles les plus compétitifs en préférence humaine. Sa date de connaissances, fixée à fin 2024, impose aussi une limite pour les sujets récents. GLM-4.5 convient surtout aux usages recherchant un grand contexte, des poids ouverts, un coût bas et de bonnes bases en connaissance, mathématiques et code.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

GLM-4.5

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast