Zhipu AI

GLM-4.7

GLM-4.7 est un LLM de Zhipu AI publié le 22 décembre 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte de 204 800 tokens et une architecture de 358 milliards de paramètres, dont 32 milliards actifs.

Son positionnement combine échelle élevée et coût bas : sa tarification est annoncée 79% sous la moyenne des LLM similaires et environ 12,1 fois inférieure à celle des modèles frontière. Son entraînement représente 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Zhipu AI
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	22 décembre 2025
Multimodal	oui
Paramètres	358 milliards
Paramètres actifs	32 milliards
Fenêtre de contexte	204 800 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	33.8	47ᵉ / 136
Math Index	95.0	5ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	109ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	90,0 %	85ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	88,9 %	127ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	88,0 %	158ᵉ / 229	benchable	✅ Mesuré
Epoch: GPQA diamond	83,3 %	38ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	83,3 %	40ᵉ / 111	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	81,3 %	46ᵉ / 252	benchable	✅ Mesuré
LiveBench: Mathematics	76,0 %	47ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	73,1 %	32ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	65,2 %	54ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	59,7 %	48ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	58,1 %	51ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	55,2 %	41ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	41,7 %	43ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	35,7 %	52ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	31,5 %	35ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	6,0 %	42ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	2,4 %	54ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	0,0 %	47ᵉ / 55	epoch	✅ Mesuré
AIME 2025	95,7 %	19ᵉ / 108	llm-stats	Auto-déclaré
Tau-bench	87,4 %	2ᵉ / 6	llm-stats	Auto-déclaré
GPQA	85,7 %	37ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench v6	84,9 %	10ᵉ / 53	llm-stats	Auto-déclaré
MMLU-Pro	84,3 %	25ᵉ / 125	llm-stats	Auto-déclaré
IMO-AnswerBench	82,0 %	11ᵉ / 18	llm-stats	Auto-déclaré
SWE-Bench Verified	73,8 %	36ᵉ / 100	llm-stats	Auto-déclaré
SWE-bench Multilingual	66,7 %	21ᵉ / 32	llm-stats	Auto-déclaré
BrowseComp-zh	66,6 %	5ᵉ / 13	llm-stats	Auto-déclaré
BrowseComp	52,0 %	33ᵉ / 51	llm-stats	Auto-déclaré
Humanity's Last Exam	42,8 %	25ᵉ / 86	llm-stats	Auto-déclaré
Terminal-Bench 2.0	41,0 %	43ᵉ / 48	llm-stats	Auto-déclaré
Terminal-Bench	33,3 %	16ᵉ / 25	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nemotron 3 Ultra 550B A…37.8

▶ GLM-4.733.8

Mistral Medium 3.529.9

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

▶ GLM-4.795.0

DeepSeek V3.292.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1442	60ᵉ
Arena Code	1440	28ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,4 $	1,75 $	0,08 $
artificialanalysis	0,6 $	2,2 $	0,525 $
artificialanalysis	0,6 $	2,2 $	0,45 $

Prix en dollars US par million de tokens.

Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,23 $
Latence moyenne par benchmark — Benchable	1 h 05 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	4,4 × 10²⁴ FLOP
Pays	China

Notre analyse

Forces. GLM-4.7 ressort surtout sur les tâches mathématiques : son Math Index le place dans le top 10, et Benchable Mathematics confirme un niveau élevé plutôt qu’un simple bon score isolé. Benchable Ethics atteint le meilleur rang du panel, ce qui signale de très bons résultats sur ce test précis. À sa sortie, le modèle se situait dans le top 16% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour le replacer dans le paysage de fin 2025. L’Arena code le positionne aussi mieux que son classement textuel, ce qui suggère une compétitivité relative plus nette en code qu’en conversation générale. Son autre atout est économique : le tarif très bas rend le modèle notable pour des usages à gros volumes de tokens.

Limites et points d’attention. L’Intelligence Index place GLM-4.7 dans une zone solide mais pas dominante, loin des tout premiers modèles du classement. Les résultats Benchable en General Knowledge, Email Classification, Reasoning et Coding restent élevés en pourcentage, mais les rangs associés indiquent plutôt un milieu ou un haut de milieu de tableau selon les tâches. L’Arena text confirme ce positionnement : le modèle n’apparaît pas comme une référence de premier plan en dialogue général. La grande taille totale, avec 358 milliards de paramètres, impose aussi de considérer les contraintes d’inférence, même si seuls 32 milliards de paramètres sont actifs. GLM-4.7 convient surtout aux scénarios recherchant un modèle open-weights sous licence permissive, une longue fenêtre de contexte, de bons résultats en mathématiques et un coût d’usage très contenu.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).