GLM-4.7
GLM-4.7 est un LLM de Zhipu AI publié le 22 décembre 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte de 204 800 tokens et une architecture de 358 milliards de paramètres, dont 32 milliards actifs.
GLM-4.7 est un LLM de Zhipu AI publié le 22 décembre 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte de 204 800 tokens et une architecture de 358 milliards de paramètres, dont 32 milliards actifs.
Son positionnement combine échelle élevée et coût bas : sa tarification est annoncée 79% sous la moyenne des LLM similaires et environ 12,1 fois inférieure à celle des modèles frontière. Son entraînement représente 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Zhipu AI |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 22 décembre 2025 |
| Multimodal | oui |
| Paramètres | 358 milliards |
| Paramètres actifs | 32 milliards |
| Fenêtre de contexte | 204 800 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 33.8 | 47ᵉ / 136 |
| Math Index | 95.0 | 5ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 109ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 90,0 % | 85ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 88,9 % | 127ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 88,0 % | 158ᵉ / 229 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 83,3 % | 38ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 83,3 % | 40ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 81,3 % | 46ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 76,0 % | 47ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 73,1 % | 32ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 65,2 % | 54ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 59,7 % | 48ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 58,1 % | 51ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 55,2 % | 41ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 41,7 % | 43ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 35,7 % | 52ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 31,5 % | 35ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 6,0 % | 42ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 2,4 % | 54ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 0,0 % | 47ᵉ / 55 | epoch | ✅ Mesuré |
| AIME 2025 | 95,7 % | 19ᵉ / 108 | llm-stats | Auto-déclaré |
| Tau-bench | 87,4 % | 2ᵉ / 6 | llm-stats | Auto-déclaré |
| GPQA | 85,7 % | 37ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 84,9 % | 10ᵉ / 53 | llm-stats | Auto-déclaré |
| MMLU-Pro | 84,3 % | 25ᵉ / 125 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 82,0 % | 11ᵉ / 18 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 73,8 % | 36ᵉ / 100 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 66,7 % | 21ᵉ / 32 | llm-stats | Auto-déclaré |
| BrowseComp-zh | 66,6 % | 5ᵉ / 13 | llm-stats | Auto-déclaré |
| BrowseComp | 52,0 % | 33ᵉ / 51 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 42,8 % | 25ᵉ / 86 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 41,0 % | 43ᵉ / 48 | llm-stats | Auto-déclaré |
| Terminal-Bench | 33,3 % | 16ᵉ / 25 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1442 | 60ᵉ |
| Arena Code | 1440 | 28ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,4 $ | 1,75 $ | 0,08 $ |
| artificialanalysis | 0,6 $ | 2,2 $ | 0,525 $ |
| artificialanalysis | 0,6 $ | 2,2 $ | 0,45 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,23 $ |
| Latence moyenne par benchmark — Benchable | 1 h 05 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 4,4 × 10²⁴ FLOP |
| Pays | China |
Notre analyse
Forces. GLM-4.7 ressort surtout sur les tâches mathématiques : son Math Index le place dans le top 10, et Benchable Mathematics confirme un niveau élevé plutôt qu’un simple bon score isolé. Benchable Ethics atteint le meilleur rang du panel, ce qui signale de très bons résultats sur ce test précis. À sa sortie, le modèle se situait dans le top 16% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour le replacer dans le paysage de fin 2025. L’Arena code le positionne aussi mieux que son classement textuel, ce qui suggère une compétitivité relative plus nette en code qu’en conversation générale. Son autre atout est économique : le tarif très bas rend le modèle notable pour des usages à gros volumes de tokens.
Limites et points d’attention. L’Intelligence Index place GLM-4.7 dans une zone solide mais pas dominante, loin des tout premiers modèles du classement. Les résultats Benchable en General Knowledge, Email Classification, Reasoning et Coding restent élevés en pourcentage, mais les rangs associés indiquent plutôt un milieu ou un haut de milieu de tableau selon les tâches. L’Arena text confirme ce positionnement : le modèle n’apparaît pas comme une référence de premier plan en dialogue général. La grande taille totale, avec 358 milliards de paramètres, impose aussi de considérer les contraintes d’inférence, même si seuls 32 milliards de paramètres sont actifs. GLM-4.7 convient surtout aux scénarios recherchant un modèle open-weights sous licence permissive, une longue fenêtre de contexte, de bons résultats en mathématiques et un coût d’usage très contenu.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).