GLM-4.5-Air

GLM-4.5-Air est un LLM de Zhipu AI publié le 28 juillet 2025, sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle se positionne comme une option très économique, avec une tarification annoncée très inférieure à celle des LLM comparables.

GLM-4.5-Air est un LLM de Zhipu AI publié le 28 juillet 2025, sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle se positionne comme une option très économique, avec une tarification annoncée très inférieure à celle des LLM comparables.

Avec 106 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 31 décembre 2024, GLM-4.5-Air vise les usages textuels à large contexte. À sa sortie, il se situait dans le top 24% des LLM de sa génération sur GPQA.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurZhipu AI
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie28 juillet 2025
Connaissances jusqu'à2024-12-31
Multimodalnon
Paramètres106 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)95,6 %60ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)92,9 %88ᵉ / 217benchable✅ Mesuré
Benchable : Hallucinations (Baseline)90,0 %145ᵉ / 229benchable✅ Mesuré
Benchable : Coding (Baseline)84,0 %150ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)80,0 %244ᵉ / 254benchable✅ Mesuré
Benchable : Instruction Following (Baseline)0,0 %229ᵉ / 252benchable✅ Mesuré
MATH-50098,1 %4ᵉ / 31llm-statsAuto-déclaré
AIME 202489,4 %10ᵉ / 52llm-statsAuto-déclaré
MMLU-Pro81,4 %42ᵉ / 125llm-statsAuto-déclaré
TAU-bench Retail77,9 %7ᵉ / 24llm-statsAuto-déclaré
BFCL-v376,4 %2ᵉ / 19llm-statsAuto-déclaré
GPQA75,0 %93ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench70,7 %21ᵉ / 72llm-statsAuto-déclaré
AA-Index64,8 %2ᵉ / 3llm-statsAuto-déclaré
TAU-bench Airline60,8 %2ᵉ / 22llm-statsAuto-déclaré
SWE-Bench Verified57,6 %78ᵉ / 100llm-statsAuto-déclaré
SciCode37,3 %16ᵉ / 18llm-statsAuto-déclaré
Terminal-Bench30,0 %20ᵉ / 25llm-statsAuto-déclaré
BrowseComp21,3 %50ᵉ / 51llm-statsAuto-déclaré
Humanity's Last Exam10,6 %76ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ GLM-4.5-Air100 %
Llama 3.3 70B Instruct98 %

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ GLM-4.5-Air99 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1373151ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
NovitaAI0,13 $0,85 $0,025 $

Prix en dollars US par million de tokens.

Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 37,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,08 $
Latence moyenne par benchmark — Benchable48 min 56 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. GLM-4.5-Air affiche ses meilleurs résultats sur General Knowledge, Ethics et Reasoning, ce qui le situe favorablement pour les tâches de compréhension générale, d’évaluation de réponses et de raisonnement textuel. Mathematics reste solide, sans atteindre le tout premier plan. Son principal avantage concurrentiel est économique : le prix est annoncé 93% sous la moyenne des LLM similaires et environ 37,2 fois inférieur à celui des modèles frontière, tout en conservant une grande fenêtre de contexte. La licence MIT et les poids ouverts renforcent aussi son intérêt pour des déploiements contrôlés, y compris commerciaux.

Limites et points d'attention. Les résultats en Coding et en Hallucinations le placent plus bas dans les classements Benchable que ses scores bruts ne le suggèrent, ce qui appelle une validation stricte pour la génération de code et les réponses factuelles sensibles. L’Arena text le situe loin des premiers rangs, signe d’une compétitivité plus limitée dans les préférences humaines générales. Les connaissances s’arrêtent au 31 décembre 2024, ce qui impose une mise à jour externe pour les sujets récents. GLM-4.5-Air convient surtout aux usages recherchant un compromis entre coût très bas, contexte long, poids ouverts et performances générales correctes.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).