Zhipu AI

GLM-4.6

GLM-4.6 est un LLM open-weights de Zhipu AI, publié le 30 septembre 2025 sous licence MIT avec usage commercial autorisé. Ce modèle chinois de grande taille combine 357 milliards de paramètres, une fenêtre de contexte de 202 752 tokens et des connaissances arrêtées au 31 mars 2025.

Son entraînement repose sur 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100, l’équivalent d’environ 570 GPU H100 mobilisés pendant trois mois. Son positionnement tarifaire est très économique, avec des prix nettement inférieurs à ceux des LLM similaires et des modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Zhipu AI
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	30 septembre 2025
Connaissances jusqu'à	2025-03-31
Multimodal	oui
Paramètres	357 milliards
Fenêtre de contexte	202 752 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	96,0 %	13ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	93,9 %	75ᵉ / 239	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	90,0 %	145ᵉ / 229	benchable	✅ Mesuré
Benchable : Coding (Baseline)	89,0 %	118ᵉ / 248	benchable	✅ Mesuré
LiveBench: Mathematics	81,1 %	34ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	71,0 %	41ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	62,1 %	47ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	59,0 %	60ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	55,2 %	52ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	51,9 %	48ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	35,0 %	51ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	26,2 %	61ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	3,8 %	52ᵉ / 69	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	3,1 %	226ᵉ / 252	benchable	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	2,1 %	36ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
AIME 2025	93,9 %	24ᵉ / 108	llm-stats	Auto-déclaré
LiveCodeBench v6	82,8 %	14ᵉ / 53	llm-stats	Auto-déclaré
GPQA	81,0 %	68ᵉ / 213	llm-stats	Auto-déclaré
SWE-Bench Verified	68,0 %	63ᵉ / 100	llm-stats	Auto-déclaré
BrowseComp	45,1 %	40ᵉ / 51	llm-stats	Auto-déclaré
Terminal-Bench	40,5 %	8ᵉ / 25	llm-stats	Auto-déclaré
Humanity's Last Exam	17,2 %	59ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

Qwen 3.5 Plus100 %

▶ GLM-4.6100 %

Claude Sonnet 499 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ GLM-4.6100 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1425	80ᵉ
Arena Code	1355	60ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,43 $	1,74 $	0,08 $

Prix en dollars US par million de tokens.

Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,05 $
Latence moyenne par benchmark — Benchable	12 min 04 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	4,4 × 10²⁴ FLOP
Taille du jeu d'entraînement	2,3 × 10¹³
Jeu de données	Unspecified unreleased
Durée d'entraînement	2 880 h
Pays	China,China

Notre analyse

Forces. GLM-4.6 se distingue d’abord par son rapport capacité-prix : sa tarification est 78% inférieure à la moyenne des LLM similaires et environ 11,2 fois plus basse que celle des modèles frontière. Sur Benchable, il atteint le top 10 en Email Classification (classification d’e-mails) et en Ethics (évaluation de réponses sur des dilemmes éthiques), deux signaux favorables pour des tâches structurées et normées. Les résultats en Mathematics restent solides, tandis que le classement GPQA le plaçait, à sa sortie, dans le top 14% des LLM de sa génération. La fenêtre de contexte très longue constitue aussi un atout pour traiter de grands volumes de texte dans une seule requête.

Limites et points d'attention. Les résultats sont plus contrastés sur Reasoning et surtout Hallucinations, où GLM-4.6 se situe loin des meilleurs modèles du panel Benchable. General Knowledge affiche un score maximal, mais avec un rang de milieu de tableau, signe d’un benchmark saturé peu discriminant. Les classements Arena text et Arena code indiquent une compétitivité correcte, sans position dominante. Malgré son prix agressif et sa licence permissive, GLM-4.6 reste donc surtout pertinent pour des usages sensibles au coût, à la grande fenêtre de contexte et à l’open-weights, plutôt que pour des tâches exigeant le meilleur niveau de fiabilité factuelle ou de raisonnement.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

GLM-4.6

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast