Zhipu AI

GLM-5V-Turbo

GLM-5V-Turbo est un LLM propriétaire de Zhipu AI, sorti le 2 avril 2026, avec des poids non ouverts. Le modèle se distingue par une très grande fenêtre de contexte de 202 752 tokens, un choix qui le place sur les usages nécessitant de longs documents, de grands historiques ou des…

Son positionnement est surtout économique : son tarif est inférieur à la moyenne des LLM similaires et environ quatre fois plus bas que celui des modèles frontière. À sa sortie, il se situait dans le top 78% des 59 LLM de sa génération sur LiveBench: Global average, avec une couverture issue de 6 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Zhipu AI
Licence	Proprietary (poids non ouverts)
Date de sortie	2 avril 2026
Multimodal	oui
Fenêtre de contexte	202 752 tokens
Modalités (entrée → sortie)	text,image,video → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	92,0 %	79ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	83,0 %	156ᵉ / 248	benchable	✅ Mesuré
LiveBench: Coding	73,9 %	29ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	73,0 %	76ᵉ / 252	benchable	✅ Mesuré
LiveBench: Mathematics	70,4 %	54ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	67,6 %	31ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Language	62,3 %	59ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	56,1 %	55ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	54,1 %	43ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	49,6 %	60ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	27,2 %	60ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	3,3 %	71ᵉ / 76	livebench	✅ Mesuré
V*	89,0 %	7ᵉ / 7	llm-stats	Auto-déclaré
PinchBench	80,7 %	4ᵉ / 4	llm-stats	Auto-déclaré
SimpleVQA	78,2 %	2ᵉ / 13	llm-stats	Auto-déclaré
AndroidWorld	75,7 %	2ᵉ / 3	llm-stats	Auto-déclaré
Claw-Eval	75,0 %	2ᵉ / 12	llm-stats	Auto-déclaré
OSWorld	62,3 %	7ᵉ / 20	llm-stats	Auto-déclaré
FACTS Grounding	58,6 %	11ᵉ / 13	llm-stats	Auto-déclaré
ZClawBench	57,6 %	2ᵉ / 4	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ GLM-5V-Turbo100 %

Nemotron Nano 9B v298 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ GLM-5V-Turbo100 %

DeepSeek R1 Distill Lla…100 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Document	1413	23ᵉ
Arena Vision	1230	40ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Z.ai	1,2 $	4 $	0,24 $

Prix en dollars US par million de tokens.

Sa tarification se situe 38 % en dessous de la moyenne des LLM similaires, et 4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	22,37 $
Durée d'exécution — PinchBench	4 h 57 min
Indice valeur/coût — PinchBench	6,76
Coût moyen par benchmark — Benchable	0,28 $
Latence moyenne par benchmark — Benchable	11 min 10 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. GLM-5V-Turbo obtient ses meilleurs signaux sur Benchable dans Hallucinations (Baseline), General Knowledge (Baseline) et Ethics (Baseline), où il apparaît dans le top 10. Ces résultats indiquent un profil solide pour les réponses factuelles générales, la réduction des erreurs manifestes et les évaluations liées aux normes éthiques. Email Classification (Baseline) ressort aussi comme un point fort opérationnel, avec un niveau élevé dans un benchmark orienté tri de messages. Mathematics (Baseline) reste compétitif, tandis que la très grande fenêtre de contexte renforce l'intérêt du modèle pour les traitements longs. Le prix constitue un autre avantage concret : GLM-5V-Turbo est classé très économique, avec une tarification nettement inférieure à celle des LLM similaires et des modèles haut de gamme.

Limites et points d'attention. Le modèle reste propriétaire, sans poids ouverts, ce qui limite l'audit indépendant, l'auto-hébergement et les adaptations profondes. Reasoning (Baseline) se situe plus bas que ses meilleurs benchmarks, signe d'un profil moins dominant sur les tâches de raisonnement général. Les classements Arena document et Arena vision le placent dans une zone correcte mais pas de tête, loin des tout premiers modèles évalués sur ces arènes. À sa sortie, son rang LiveBench: Global average le situe dans le haut large de sa génération, sans en faire un modèle de tout premier plan. GLM-5V-Turbo convient surtout aux déploiements à coûts contraints qui privilégient contexte long, connaissances générales, classification d'e-mails et contrôles de cohérence.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

GLM-5V-Turbo

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast