GLM-4.6
GLM-4.6 est un LLM open-weights de Zhipu AI, publié le 30 septembre 2025 sous licence MIT avec usage commercial autorisé. Ce modèle chinois de grande taille combine 357 milliards de paramètres, une fenêtre de contexte de 202 752 tokens et des connaissances arrêtées au 31 mars 2025.
GLM-4.6 est un LLM open-weights de Zhipu AI, publié le 30 septembre 2025 sous licence MIT avec usage commercial autorisé. Ce modèle chinois de grande taille combine 357 milliards de paramètres, une fenêtre de contexte de 202 752 tokens et des connaissances arrêtées au 31 mars 2025.
Son entraînement repose sur 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100, l’équivalent d’environ 570 GPU H100 mobilisés pendant trois mois. Son positionnement tarifaire est très économique, avec des prix nettement inférieurs à ceux des LLM similaires et des modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Zhipu AI |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 30 septembre 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | oui |
| Paramètres | 357 milliards |
| Fenêtre de contexte | 202 752 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 96,0 % | 13ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 93,9 % | 75ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 90,0 % | 145ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 89,0 % | 118ᵉ / 248 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 81,1 % | 34ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 71,0 % | 41ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 62,1 % | 47ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 59,0 % | 60ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 55,2 % | 52ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 51,9 % | 48ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 35,0 % | 51ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 26,2 % | 61ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 3,8 % | 52ᵉ / 69 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 3,1 % | 226ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 2,1 % | 36ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| AIME 2025 | 93,9 % | 24ᵉ / 108 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 82,8 % | 14ᵉ / 53 | llm-stats | Auto-déclaré |
| GPQA | 81,0 % | 68ᵉ / 213 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 68,0 % | 63ᵉ / 100 | llm-stats | Auto-déclaré |
| BrowseComp | 45,1 % | 40ᵉ / 51 | llm-stats | Auto-déclaré |
| Terminal-Bench | 40,5 % | 8ᵉ / 25 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 17,2 % | 59ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Ethics (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1425 | 80ᵉ |
| Arena Code | 1355 | 60ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,43 $ | 1,74 $ | 0,08 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,05 $ |
| Latence moyenne par benchmark — Benchable | 12 min 04 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 4,4 × 10²⁴ FLOP |
| Taille du jeu d'entraînement | 2,3 × 10¹³ |
| Jeu de données | Unspecified unreleased |
| Durée d'entraînement | 2 880 h |
| Pays | China,China |
Notre analyse
Forces. GLM-4.6 se distingue d’abord par son rapport capacité-prix : sa tarification est 78% inférieure à la moyenne des LLM similaires et environ 11,2 fois plus basse que celle des modèles frontière. Sur Benchable, il atteint le top 10 en Email Classification (classification d’e-mails) et en Ethics (évaluation de réponses sur des dilemmes éthiques), deux signaux favorables pour des tâches structurées et normées. Les résultats en Mathematics restent solides, tandis que le classement GPQA le plaçait, à sa sortie, dans le top 14% des LLM de sa génération. La fenêtre de contexte très longue constitue aussi un atout pour traiter de grands volumes de texte dans une seule requête.
Limites et points d'attention. Les résultats sont plus contrastés sur Reasoning et surtout Hallucinations, où GLM-4.6 se situe loin des meilleurs modèles du panel Benchable. General Knowledge affiche un score maximal, mais avec un rang de milieu de tableau, signe d’un benchmark saturé peu discriminant. Les classements Arena text et Arena code indiquent une compétitivité correcte, sans position dominante. Malgré son prix agressif et sa licence permissive, GLM-4.6 reste donc surtout pertinent pour des usages sensibles au coût, à la grande fenêtre de contexte et à l’open-weights, plutôt que pour des tâches exigeant le meilleur niveau de fiabilité factuelle ou de raisonnement.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).