GLM-4.5
GLM-4.5 est un LLM de Zhipu AI publié le 28 juillet 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte, des connaissances arrêtées au 31 décembre 2024 et un positionnement tarifaire très économique.
GLM-4.5 est un LLM de Zhipu AI publié le 28 juillet 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte, des connaissances arrêtées au 31 décembre 2024 et un positionnement tarifaire très économique.
Son entraînement revendique 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100, l’équivalent d’environ 570 GPU H100 mobilisés pendant trois mois. À sa sortie, GLM-4.5 se situait dans le top 17% de sa génération sur GPQA.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Zhipu AI |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 28 juillet 2025 |
| Connaissances jusqu'à | 2024-12-31 |
| Multimodal | non |
| Paramètres | 355 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 157ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 94,0 % | 126ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 93,0 % | 224ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,9 % | 77ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 90,0 % | 85ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 72,7 % | 77ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| MATH-500 | 98,2 % | 3ᵉ / 31 | llm-stats | Auto-déclaré |
| AIME 2024 | 91,0 % | 8ᵉ / 52 | llm-stats | Auto-déclaré |
| MMLU-Pro | 84,6 % | 23ᵉ / 125 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 79,7 % | 6ᵉ / 24 | llm-stats | Auto-déclaré |
| GPQA | 79,1 % | 77ᵉ / 213 | llm-stats | Auto-déclaré |
| BFCL-v3 | 77,8 % | 1ᵉ / 19 | llm-stats | Auto-déclaré |
| LiveCodeBench | 72,9 % | 18ᵉ / 72 | llm-stats | Auto-déclaré |
| AA-Index | 67,7 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 64,2 % | 71ᵉ / 100 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 60,4 % | 3ᵉ / 22 | llm-stats | Auto-déclaré |
| SciCode | 41,7 % | 11ᵉ / 18 | llm-stats | Auto-déclaré |
| Terminal-Bench | 37,5 % | 12ᵉ / 25 | llm-stats | Auto-déclaré |
| BrowseComp | 26,4 % | 49ᵉ / 51 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 14,4 % | 68ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : General Knowledge (Baseline)
Benchable : Ethics (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1411 | 108ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Z.ai | 0,6 $ | 2,2 $ | 0,11 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 69 % en dessous de la moyenne des LLM similaires, et 8,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,14 $ |
| Latence moyenne par benchmark — Benchable | 42 min 55 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 4,4 × 10²⁴ FLOP |
| Taille du jeu d'entraînement | 2,3 × 10¹³ |
| Jeu de données | Unspecified unreleased |
| Pays | China,China |
Notre analyse
Forces. GLM-4.5 affiche un profil solide en connaissances générales, où il apparaît dans le top 10 de Benchable General Knowledge (Baseline). Ses résultats sont également élevés en Mathematics (Baseline) et en Coding (Baseline), deux usages structurants pour un LLM généraliste orienté raisonnement et production technique. Le score Hallucinations (Baseline) reste bon, ce qui indique une tenue correcte sur les tâches évaluant la fiabilité des réponses. La licence MIT, les poids ouverts et l’autorisation d’usage commercial renforcent son intérêt pour des déploiements maîtrisés. Son tarif constitue un autre point fort concret : il est indiqué comme 69% inférieur à la moyenne des LLM similaires et environ 8,1 fois moins cher que les modèles frontière.
Limites et points d'attention. Les classements Benchable montrent un modèle inégal selon les tâches : Ethics (Baseline) et Email Classification (Baseline) sont loin des meilleurs rangs malgré des scores élevés, signe d’un plateau de performance ou d’une concurrence dense sur ces tests. Arena text place GLM-4.5 dans une zone intermédiaire plutôt que parmi les modèles les plus compétitifs en préférence humaine. Sa date de connaissances, fixée à fin 2024, impose aussi une limite pour les sujets récents. GLM-4.5 convient surtout aux usages recherchant un grand contexte, des poids ouverts, un coût bas et de bonnes bases en connaissance, mathématiques et code.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).