GLM-5V-Turbo
GLM-5V-Turbo est un LLM propriétaire de Zhipu AI, sorti le 2 avril 2026, avec des poids non ouverts. Le modèle se distingue par une très grande fenêtre de contexte de 202 752 tokens, un choix qui le place sur les usages nécessitant de longs documents, de grands historiques ou des…
GLM-5V-Turbo est un LLM propriétaire de Zhipu AI, sorti le 2 avril 2026, avec des poids non ouverts. Le modèle se distingue par une très grande fenêtre de contexte de 202 752 tokens, un choix qui le place sur les usages nécessitant de longs documents, de grands historiques ou des consignes étendues.
Son positionnement est surtout économique : son tarif est inférieur à la moyenne des LLM similaires et environ quatre fois plus bas que celui des modèles frontière. À sa sortie, il se situait dans le top 78% des 59 LLM de sa génération sur LiveBench: Global average, avec une couverture issue de 6 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Zhipu AI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 2 avril 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 202 752 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,0 % | 25ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 92,0 % | 79ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 83,0 % | 156ᵉ / 248 | benchable | ✅ Mesuré |
| LiveBench: Coding | 73,9 % | 29ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 73,0 % | 76ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 70,4 % | 54ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 67,6 % | 31ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Language | 62,3 % | 59ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 56,1 % | 55ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 54,1 % | 43ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 49,6 % | 60ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 27,2 % | 60ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 3,3 % | 71ᵉ / 76 | livebench | ✅ Mesuré |
| V* | 89,0 % | 7ᵉ / 7 | llm-stats | Auto-déclaré |
| PinchBench | 80,7 % | 4ᵉ / 4 | llm-stats | Auto-déclaré |
| SimpleVQA | 78,2 % | 2ᵉ / 13 | llm-stats | Auto-déclaré |
| AndroidWorld | 75,7 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| Claw-Eval | 75,0 % | 2ᵉ / 12 | llm-stats | Auto-déclaré |
| OSWorld | 62,3 % | 7ᵉ / 20 | llm-stats | Auto-déclaré |
| FACTS Grounding | 58,6 % | 11ᵉ / 13 | llm-stats | Auto-déclaré |
| ZClawBench | 57,6 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : General Knowledge (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Document | 1413 | 23ᵉ |
| Arena Vision | 1230 | 40ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Z.ai | 1,2 $ | 4 $ | 0,24 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 38 % en dessous de la moyenne des LLM similaires, et 4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 22,37 $ |
| Durée d'exécution — PinchBench | 4 h 57 min |
| Indice valeur/coût — PinchBench | 6,76 |
| Coût moyen par benchmark — Benchable | 0,28 $ |
| Latence moyenne par benchmark — Benchable | 11 min 10 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. GLM-5V-Turbo obtient ses meilleurs signaux sur Benchable dans Hallucinations (Baseline), General Knowledge (Baseline) et Ethics (Baseline), où il apparaît dans le top 10. Ces résultats indiquent un profil solide pour les réponses factuelles générales, la réduction des erreurs manifestes et les évaluations liées aux normes éthiques. Email Classification (Baseline) ressort aussi comme un point fort opérationnel, avec un niveau élevé dans un benchmark orienté tri de messages. Mathematics (Baseline) reste compétitif, tandis que la très grande fenêtre de contexte renforce l'intérêt du modèle pour les traitements longs. Le prix constitue un autre avantage concret : GLM-5V-Turbo est classé très économique, avec une tarification nettement inférieure à celle des LLM similaires et des modèles haut de gamme.
Limites et points d'attention. Le modèle reste propriétaire, sans poids ouverts, ce qui limite l'audit indépendant, l'auto-hébergement et les adaptations profondes. Reasoning (Baseline) se situe plus bas que ses meilleurs benchmarks, signe d'un profil moins dominant sur les tâches de raisonnement général. Les classements Arena document et Arena vision le placent dans une zone correcte mais pas de tête, loin des tout premiers modèles évalués sur ces arènes. À sa sortie, son rang LiveBench: Global average le situe dans le haut large de sa génération, sans en faire un modèle de tout premier plan. GLM-5V-Turbo convient surtout aux déploiements à coûts contraints qui privilégient contexte long, connaissances générales, classification d'e-mails et contrôles de cohérence.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).