GLM-4.6

GLM-4.6 est un LLM open-weights de Zhipu AI, publié le 30 septembre 2025 sous licence MIT avec usage commercial autorisé. Ce modèle chinois de grande taille combine 357 milliards de paramètres, une fenêtre de contexte de 202 752 tokens et des connaissances arrêtées au 31 mars 2025.

GLM-4.6 est un LLM open-weights de Zhipu AI, publié le 30 septembre 2025 sous licence MIT avec usage commercial autorisé. Ce modèle chinois de grande taille combine 357 milliards de paramètres, une fenêtre de contexte de 202 752 tokens et des connaissances arrêtées au 31 mars 2025.

Son entraînement repose sur 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100, l’équivalent d’environ 570 GPU H100 mobilisés pendant trois mois. Son positionnement tarifaire est très économique, avec des prix nettement inférieurs à ceux des LLM similaires et des modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurZhipu AI
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie30 septembre 2025
Connaissances jusqu'à2025-03-31
Multimodaloui
Paramètres357 milliards
Fenêtre de contexte202 752 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Mathematics (Baseline)96,0 %13ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)93,9 %75ᵉ / 239benchable✅ Mesuré
Benchable : Hallucinations (Baseline)90,0 %145ᵉ / 229benchable✅ Mesuré
Benchable : Coding (Baseline)89,0 %118ᵉ / 248benchable✅ Mesuré
LiveBench: Mathematics81,1 %34ᵉ / 76livebench✅ Mesuré
LiveBench: Coding71,0 %41ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning62,1 %47ᵉ / 76livebench✅ Mesuré
LiveBench: Language59,0 %60ᵉ / 76livebench✅ Mesuré
LiveBench: Global average55,2 %52ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis51,9 %48ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding35,0 %51ᵉ / 76livebench✅ Mesuré
LiveBench: IF26,2 %61ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private3,8 %52ᵉ / 69epoch✅ Mesuré
Benchable : Instruction Following (Baseline)3,1 %226ᵉ / 252benchable✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private2,1 %36ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
AIME 202593,9 %24ᵉ / 108llm-statsAuto-déclaré
LiveCodeBench v682,8 %14ᵉ / 53llm-statsAuto-déclaré
GPQA81,0 %68ᵉ / 213llm-statsAuto-déclaré
SWE-Bench Verified68,0 %63ᵉ / 100llm-statsAuto-déclaré
BrowseComp45,1 %40ᵉ / 51llm-statsAuto-déclaré
Terminal-Bench40,5 %8ᵉ / 25llm-statsAuto-déclaré
Humanity's Last Exam17,2 %59ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

GPT-4 Turbo100 %
Qwen 3.5 Plus100 %
▶ GLM-4.6100 %

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ GLM-4.6100 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text142580ᵉ
Arena Code135560ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,43 $1,74 $0,08 $

Prix en dollars US par million de tokens.

Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,05 $
Latence moyenne par benchmark — Benchable12 min 04 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement4,4 × 10²⁴ FLOP
Taille du jeu d'entraînement2,3 × 10¹³
Jeu de donnéesUnspecified unreleased
Durée d'entraînement2 880 h
PaysChina,China

Notre analyse

Forces. GLM-4.6 se distingue d’abord par son rapport capacité-prix : sa tarification est 78% inférieure à la moyenne des LLM similaires et environ 11,2 fois plus basse que celle des modèles frontière. Sur Benchable, il atteint le top 10 en Email Classification (classification d’e-mails) et en Ethics (évaluation de réponses sur des dilemmes éthiques), deux signaux favorables pour des tâches structurées et normées. Les résultats en Mathematics restent solides, tandis que le classement GPQA le plaçait, à sa sortie, dans le top 14% des LLM de sa génération. La fenêtre de contexte très longue constitue aussi un atout pour traiter de grands volumes de texte dans une seule requête.

Limites et points d'attention. Les résultats sont plus contrastés sur Reasoning et surtout Hallucinations, où GLM-4.6 se situe loin des meilleurs modèles du panel Benchable. General Knowledge affiche un score maximal, mais avec un rang de milieu de tableau, signe d’un benchmark saturé peu discriminant. Les classements Arena text et Arena code indiquent une compétitivité correcte, sans position dominante. Malgré son prix agressif et sa licence permissive, GLM-4.6 reste donc surtout pertinent pour des usages sensibles au coût, à la grande fenêtre de contexte et à l’open-weights, plutôt que pour des tâches exigeant le meilleur niveau de fiabilité factuelle ou de raisonnement.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).