Zhipu AI

GLM-4.5-Air

GLM-4.5-Air est un LLM de Zhipu AI publié le 28 juillet 2025, sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle se positionne comme une option très économique, avec une tarification annoncée très inférieure à celle des LLM comparables.

Avec 106 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 31 décembre 2024, GLM-4.5-Air vise les usages textuels à large contexte. À sa sortie, il se situait dans le top 24% des LLM de sa génération sur GPQA.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Zhipu AI
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	28 juillet 2025
Connaissances jusqu'à	2024-12-31
Multimodal	non
Paramètres	106 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	95,6 %	60ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	92,9 %	88ᵉ / 217	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	90,0 %	145ᵉ / 229	benchable	✅ Mesuré
Benchable : Coding (Baseline)	84,0 %	150ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	80,0 %	244ᵉ / 254	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	0,0 %	229ᵉ / 252	benchable	✅ Mesuré
MATH-500	98,1 %	4ᵉ / 31	llm-stats	Auto-déclaré
AIME 2024	89,4 %	10ᵉ / 52	llm-stats	Auto-déclaré
MMLU-Pro	81,4 %	42ᵉ / 125	llm-stats	Auto-déclaré
TAU-bench Retail	77,9 %	7ᵉ / 24	llm-stats	Auto-déclaré
BFCL-v3	76,4 %	2ᵉ / 19	llm-stats	Auto-déclaré
GPQA	75,0 %	93ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	70,7 %	21ᵉ / 72	llm-stats	Auto-déclaré
AA-Index	64,8 %	2ᵉ / 3	llm-stats	Auto-déclaré
TAU-bench Airline	60,8 %	2ᵉ / 22	llm-stats	Auto-déclaré
SWE-Bench Verified	57,6 %	78ᵉ / 100	llm-stats	Auto-déclaré
SciCode	37,3 %	16ᵉ / 18	llm-stats	Auto-déclaré
Terminal-Bench	30,0 %	20ᵉ / 25	llm-stats	Auto-déclaré
BrowseComp	21,3 %	50ᵉ / 51	llm-stats	Auto-déclaré
Humanity's Last Exam	10,6 %	76ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ GLM-4.5-Air100 %

Llama 3.3 70B Instruct98 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ GLM-4.5-Air99 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1373	151ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
NovitaAI	0,13 $	0,85 $	0,025 $

Prix en dollars US par million de tokens.

Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 37,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,08 $
Latence moyenne par benchmark — Benchable	48 min 56 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. GLM-4.5-Air affiche ses meilleurs résultats sur General Knowledge, Ethics et Reasoning, ce qui le situe favorablement pour les tâches de compréhension générale, d’évaluation de réponses et de raisonnement textuel. Mathematics reste solide, sans atteindre le tout premier plan. Son principal avantage concurrentiel est économique : le prix est annoncé 93% sous la moyenne des LLM similaires et environ 37,2 fois inférieur à celui des modèles frontière, tout en conservant une grande fenêtre de contexte. La licence MIT et les poids ouverts renforcent aussi son intérêt pour des déploiements contrôlés, y compris commerciaux.

Limites et points d'attention. Les résultats en Coding et en Hallucinations le placent plus bas dans les classements Benchable que ses scores bruts ne le suggèrent, ce qui appelle une validation stricte pour la génération de code et les réponses factuelles sensibles. L’Arena text le situe loin des premiers rangs, signe d’une compétitivité plus limitée dans les préférences humaines générales. Les connaissances s’arrêtent au 31 décembre 2024, ce qui impose une mise à jour externe pour les sujets récents. GLM-4.5-Air convient surtout aux usages recherchant un compromis entre coût très bas, contexte long, poids ouverts et performances générales correctes.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

GLM-4.5-Air

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast