GLM-5.1
GLM-5.1 est un LLM de Zhipu AI, publié le 7 avril 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il combine une très grande taille totale, 754 milliards de paramètres, avec 40 milliards de paramètres actifs, dans une fenêtre de contexte de 202…
GLM-5.1 est un LLM de Zhipu AI, publié le 7 avril 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il combine une très grande taille totale, 754 milliards de paramètres, avec 40 milliards de paramètres actifs, dans une fenêtre de contexte de 202 752 tokens.
Son positionnement associe performances solides et coût agressif. Le modèle se place dans le haut de sa génération à sa sortie, notamment sur GPQA diamond, tout en affichant une tarification très économique, inférieure de 50% à la moyenne des LLM similaires.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Zhipu AI |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 7 avril 2026 |
| Multimodal | non |
| Paramètres | 754 milliards |
| Paramètres actifs | 40 milliards |
| Fenêtre de contexte | 202 752 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 40.2 | 18ᵉ / 136 |
| Code Index | 55.8 | 22ᵉ / 50 |
| Agentic Index | 29.9 | 16ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,0 % | 11ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,0 % | 25ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 92,2 % | 17ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 85,5 % | 28ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 84,9 % | 21ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 83,0 % | 36ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 80,0 % | 6ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Coding | 75,4 % | 24ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 74,2 % | 16ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Reasoning | 72,5 % | 33ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 71,8 % | 38ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 70,2 % | 24ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 68,5 % | 9ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 63,2 % | 29ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 59,9 % | 37ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Agentic Coding | 55,0 % | 15ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 37,3 % | 31ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 33,4 % | 15ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 18,0 % | 27ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 12,5 % | 17ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| AIME 2026 | 95,3 % | 3ᵉ / 17 | llm-stats | Auto-déclaré |
| HMMT 2025 | 94,0 % | 10ᵉ / 33 | llm-stats | Auto-déclaré |
| GPQA | 86,2 % | 35ᵉ / 213 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 83,8 % | 9ᵉ / 18 | llm-stats | Auto-déclaré |
| HMMT Feb 26 | 82,6 % | 11ᵉ / 11 | llm-stats | Auto-déclaré |
| BrowseComp | 79,3 % | 13ᵉ / 51 | llm-stats | Auto-déclaré |
| MCP Atlas | 71,8 % | 14ᵉ / 27 | llm-stats | Auto-déclaré |
| TAU3-Bench | 70,6 % | 3ᵉ / 5 | llm-stats | Auto-déclaré |
| LiveBench | 70,2 % | 29ᵉ / 38 | llm-stats | n.d. |
| Terminal-Bench 2.0 | 69,0 % | 10ᵉ / 48 | llm-stats | Auto-déclaré |
| CyberGym | 68,7 % | 7ᵉ / 9 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 58,4 % | 10ᵉ / 34 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 52,3 % | 11ᵉ / 86 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 44,8 % | 11ᵉ / 25 | llm-stats | n.d. |
| GDPval-AA | 42,7 % | 14ᵉ / 33 | llm-stats | n.d. |
| NL2Repo | 42,7 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| Toolathlon | 40,7 % | 16ᵉ / 23 | llm-stats | Auto-déclaré |
| FrontierSWE | 31,0 % | 9ᵉ / 13 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1529 | 11ᵉ |
| Arena Text | 1473 | 19ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| GMICloud | 0,98 $ | 3,08 $ | 0,182 $ |
| friendli | 1,4 $ | 4,4 $ | n.d. |
| artificialanalysis | 1,4 $ | 4,4 $ | 0,26 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 50 % en dessous de la moyenne des LLM similaires, et 4,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 16,41 $ |
| Durée d'exécution — PinchBench | 5 h 11 min |
| Coût moyen par benchmark — Benchable | 0,34 $ |
| Latence moyenne par benchmark — Benchable | 28 min 47 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | China |
Notre analyse
Forces. GLM-5.1 ressort surtout par sa régularité sur les Benchable Baseline liés aux hallucinations, aux connaissances générales et au raisonnement, où il figure dans le tout premier groupe. Le codage constitue aussi un point fort, avec un très bon résultat Benchable Coding et une place élevée en Arena code, ce qui confirme un profil utile pour la génération, la correction et l’analyse de code. Son Intelligence Index le situe parmi les modèles solides de son panel, et son classement à la sortie, dans le top 28% des LLM de sa génération sur GPQA diamond, indique un niveau compétitif pour son époque. Le coût renforce ce positionnement : l’entrée à 0,98 $ par million de tokens et la sortie à 3,08 $ restent nettement sous les modèles haut de gamme.
Limites et points d'attention. Les résultats Ethics et Email Classification sont élevés en score brut, mais leurs rangs les placent loin des meilleurs, ce qui signale une concurrence plus dense sur ces tâches. L’Agentic Index est correct sans placer GLM-5.1 parmi les tout premiers modèles d’agents, et l’Arena text reste moins saillant que l’Arena code. Le modèle convient surtout aux usages recherchant un compromis entre contexte long, coût bas, poids ouverts et bonnes performances générales, plutôt qu’un leadership absolu sur chaque catégorie.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).