GLM-4.7

GLM-4.7 est un LLM de Zhipu AI publié le 22 décembre 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte de 204 800 tokens et une architecture de 358 milliards de paramètres, dont 32 milliards actifs.

GLM-4.7 est un LLM de Zhipu AI publié le 22 décembre 2025, avec des poids ouverts sous licence MIT et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte de 204 800 tokens et une architecture de 358 milliards de paramètres, dont 32 milliards actifs.

Son positionnement combine échelle élevée et coût bas : sa tarification est annoncée 79% sous la moyenne des LLM similaires et environ 12,1 fois inférieure à celle des modèles frontière. Son entraînement représente 4,4 × 10²⁴ FLOP, soit environ 1,2 million d’heures-GPU H100.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurZhipu AI
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie22 décembre 2025
Multimodaloui
Paramètres358 milliards
Paramètres actifs32 milliards
Fenêtre de contexte204 800 tokens
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index33.847ᵉ / 136
Math Index95.05ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %109ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,0 %42ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)90,0 %85ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)88,9 %127ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)88,0 %158ᵉ / 229benchable✅ Mesuré
Epoch: GPQA diamond83,3 %38ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202583,3 %40ᵉ / 111epoch✅ Mesuré
Benchable : Instruction Following (Baseline)81,3 %46ᵉ / 252benchable✅ Mesuré
LiveBench: Mathematics76,0 %47ᵉ / 76livebench✅ Mesuré
LiveBench: Coding73,1 %32ᵉ / 76livebench✅ Mesuré
LiveBench: Language65,2 %54ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning59,7 %48ᵉ / 76livebench✅ Mesuré
LiveBench: Global average58,1 %51ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis55,2 %41ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding41,7 %43ᵉ / 76livebench✅ Mesuré
LiveBench: IF35,7 %52ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified31,5 %35ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles6,0 %42ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private2,4 %54ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private0,0 %47ᵉ / 55epoch✅ Mesuré
AIME 202595,7 %19ᵉ / 108llm-statsAuto-déclaré
Tau-bench87,4 %2ᵉ / 6llm-statsAuto-déclaré
GPQA85,7 %37ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench v684,9 %10ᵉ / 53llm-statsAuto-déclaré
MMLU-Pro84,3 %25ᵉ / 125llm-statsAuto-déclaré
IMO-AnswerBench82,0 %11ᵉ / 18llm-statsAuto-déclaré
SWE-Bench Verified73,8 %36ᵉ / 100llm-statsAuto-déclaré
SWE-bench Multilingual66,7 %21ᵉ / 32llm-statsAuto-déclaré
BrowseComp-zh66,6 %5ᵉ / 13llm-statsAuto-déclaré
BrowseComp52,0 %33ᵉ / 51llm-statsAuto-déclaré
Humanity's Last Exam42,8 %25ᵉ / 86llm-statsAuto-déclaré
Terminal-Bench 2.041,0 %43ᵉ / 48llm-statsAuto-déclaré
Terminal-Bench33,3 %16ᵉ / 25llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Nemotron 3 Ultra 550B A…37.8
▶ GLM-4.733.8
Mistral Medium 3.529.9

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
▶ GLM-4.795.0
DeepSeek V3.292.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text144260ᵉ
Arena Code144028ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,4 $1,75 $0,08 $
artificialanalysis0,6 $2,2 $0,525 $
artificialanalysis0,6 $2,2 $0,45 $

Prix en dollars US par million de tokens.

Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,23 $
Latence moyenne par benchmark — Benchable1 h 05 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement4,4 × 10²⁴ FLOP
PaysChina

Notre analyse

Forces. GLM-4.7 ressort surtout sur les tâches mathématiques : son Math Index le place dans le top 10, et Benchable Mathematics confirme un niveau élevé plutôt qu’un simple bon score isolé. Benchable Ethics atteint le meilleur rang du panel, ce qui signale de très bons résultats sur ce test précis. À sa sortie, le modèle se situait dans le top 16% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour le replacer dans le paysage de fin 2025. L’Arena code le positionne aussi mieux que son classement textuel, ce qui suggère une compétitivité relative plus nette en code qu’en conversation générale. Son autre atout est économique : le tarif très bas rend le modèle notable pour des usages à gros volumes de tokens.

Limites et points d’attention. L’Intelligence Index place GLM-4.7 dans une zone solide mais pas dominante, loin des tout premiers modèles du classement. Les résultats Benchable en General Knowledge, Email Classification, Reasoning et Coding restent élevés en pourcentage, mais les rangs associés indiquent plutôt un milieu ou un haut de milieu de tableau selon les tâches. L’Arena text confirme ce positionnement : le modèle n’apparaît pas comme une référence de premier plan en dialogue général. La grande taille totale, avec 358 milliards de paramètres, impose aussi de considérer les contraintes d’inférence, même si seuls 32 milliards de paramètres sont actifs. GLM-4.7 convient surtout aux scénarios recherchant un modèle open-weights sous licence permissive, une longue fenêtre de contexte, de bons résultats en mathématiques et un coût d’usage très contenu.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).