GLM-4.5

GLM-4.5 est un LLM de Zhipu AI publié le 28 juillet 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte, des connaissances arrêtées au 31 décembre 2024 et un positionnement tarifaire très économique.

GLM-4.5 est un LLM de Zhipu AI publié le 28 juillet 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte, des connaissances arrêtées au 31 décembre 2024 et un positionnement tarifaire très économique.

Son entraînement revendique 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100, l’équivalent d’environ 570 GPU H100 mobilisés pendant trois mois. À sa sortie, GLM-4.5 se situait dans le top 17% de sa génération sur GPQA.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurZhipu AI
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie28 juillet 2025
Connaissances jusqu'à2024-12-31
Multimodalnon
Paramètres355 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %157ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)94,0 %126ᵉ / 229benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,0 %42ᵉ / 217benchable✅ Mesuré
Benchable : Email Classification (Baseline)93,0 %224ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)92,9 %77ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)90,0 %85ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)72,7 %77ᵉ / 252benchable✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
MATH-50098,2 %3ᵉ / 31llm-statsAuto-déclaré
AIME 202491,0 %8ᵉ / 52llm-statsAuto-déclaré
MMLU-Pro84,6 %23ᵉ / 125llm-statsAuto-déclaré
TAU-bench Retail79,7 %6ᵉ / 24llm-statsAuto-déclaré
GPQA79,1 %77ᵉ / 213llm-statsAuto-déclaré
BFCL-v377,8 %1ᵉ / 19llm-statsAuto-déclaré
LiveCodeBench72,9 %18ᵉ / 72llm-statsAuto-déclaré
AA-Index67,7 %1ᵉ / 3llm-statsAuto-déclaré
SWE-Bench Verified64,2 %71ᵉ / 100llm-statsAuto-déclaré
TAU-bench Airline60,4 %3ᵉ / 22llm-statsAuto-déclaré
SciCode41,7 %11ᵉ / 18llm-statsAuto-déclaré
Terminal-Bench37,5 %12ᵉ / 25llm-statsAuto-déclaré
BrowseComp26,4 %49ᵉ / 51llm-statsAuto-déclaré
Humanity's Last Exam14,4 %68ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

GPT-5100 %
qwen3-235b-a22b-04-28100 %
▶ GLM-4.5100 %

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ GLM-4.599 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1411108ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Z.ai0,6 $2,2 $0,11 $

Prix en dollars US par million de tokens.

Sa tarification se situe 69 % en dessous de la moyenne des LLM similaires, et 8,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,14 $
Latence moyenne par benchmark — Benchable42 min 55 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement4,4 × 10²⁴ FLOP
Taille du jeu d'entraînement2,3 × 10¹³
Jeu de donnéesUnspecified unreleased
PaysChina,China

Notre analyse

Forces. GLM-4.5 affiche un profil solide en connaissances générales, où il apparaît dans le top 10 de Benchable General Knowledge (Baseline). Ses résultats sont également élevés en Mathematics (Baseline) et en Coding (Baseline), deux usages structurants pour un LLM généraliste orienté raisonnement et production technique. Le score Hallucinations (Baseline) reste bon, ce qui indique une tenue correcte sur les tâches évaluant la fiabilité des réponses. La licence MIT, les poids ouverts et l’autorisation d’usage commercial renforcent son intérêt pour des déploiements maîtrisés. Son tarif constitue un autre point fort concret : il est indiqué comme 69% inférieur à la moyenne des LLM similaires et environ 8,1 fois moins cher que les modèles frontière.

Limites et points d'attention. Les classements Benchable montrent un modèle inégal selon les tâches : Ethics (Baseline) et Email Classification (Baseline) sont loin des meilleurs rangs malgré des scores élevés, signe d’un plateau de performance ou d’une concurrence dense sur ces tests. Arena text place GLM-4.5 dans une zone intermédiaire plutôt que parmi les modèles les plus compétitifs en préférence humaine. Sa date de connaissances, fixée à fin 2024, impose aussi une limite pour les sujets récents. GLM-4.5 convient surtout aux usages recherchant un grand contexte, des poids ouverts, un coût bas et de bonnes bases en connaissance, mathématiques et code.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).