GLM-4.5-Air
GLM-4.5-Air est un LLM de Zhipu AI publié le 28 juillet 2025, sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle se positionne comme une option très économique, avec une tarification annoncée très inférieure à celle des LLM comparables.
GLM-4.5-Air est un LLM de Zhipu AI publié le 28 juillet 2025, sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle se positionne comme une option très économique, avec une tarification annoncée très inférieure à celle des LLM comparables.
Avec 106 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 31 décembre 2024, GLM-4.5-Air vise les usages textuels à large contexte. À sa sortie, il se situait dans le top 24% des LLM de sa génération sur GPQA.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Zhipu AI |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 28 juillet 2025 |
| Connaissances jusqu'à | 2024-12-31 |
| Multimodal | non |
| Paramètres | 106 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 95,6 % | 60ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,9 % | 88ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 90,0 % | 145ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 84,0 % | 150ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 80,0 % | 244ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 0,0 % | 229ᵉ / 252 | benchable | ✅ Mesuré |
| MATH-500 | 98,1 % | 4ᵉ / 31 | llm-stats | Auto-déclaré |
| AIME 2024 | 89,4 % | 10ᵉ / 52 | llm-stats | Auto-déclaré |
| MMLU-Pro | 81,4 % | 42ᵉ / 125 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 77,9 % | 7ᵉ / 24 | llm-stats | Auto-déclaré |
| BFCL-v3 | 76,4 % | 2ᵉ / 19 | llm-stats | Auto-déclaré |
| GPQA | 75,0 % | 93ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 70,7 % | 21ᵉ / 72 | llm-stats | Auto-déclaré |
| AA-Index | 64,8 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 60,8 % | 2ᵉ / 22 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 57,6 % | 78ᵉ / 100 | llm-stats | Auto-déclaré |
| SciCode | 37,3 % | 16ᵉ / 18 | llm-stats | Auto-déclaré |
| Terminal-Bench | 30,0 % | 20ᵉ / 25 | llm-stats | Auto-déclaré |
| BrowseComp | 21,3 % | 50ᵉ / 51 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 10,6 % | 76ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : General Knowledge (Baseline)
Benchable : Ethics (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1373 | 151ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| NovitaAI | 0,13 $ | 0,85 $ | 0,025 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 37,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,08 $ |
| Latence moyenne par benchmark — Benchable | 48 min 56 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. GLM-4.5-Air affiche ses meilleurs résultats sur General Knowledge, Ethics et Reasoning, ce qui le situe favorablement pour les tâches de compréhension générale, d’évaluation de réponses et de raisonnement textuel. Mathematics reste solide, sans atteindre le tout premier plan. Son principal avantage concurrentiel est économique : le prix est annoncé 93% sous la moyenne des LLM similaires et environ 37,2 fois inférieur à celui des modèles frontière, tout en conservant une grande fenêtre de contexte. La licence MIT et les poids ouverts renforcent aussi son intérêt pour des déploiements contrôlés, y compris commerciaux.
Limites et points d'attention. Les résultats en Coding et en Hallucinations le placent plus bas dans les classements Benchable que ses scores bruts ne le suggèrent, ce qui appelle une validation stricte pour la génération de code et les réponses factuelles sensibles. L’Arena text le situe loin des premiers rangs, signe d’une compétitivité plus limitée dans les préférences humaines générales. Les connaissances s’arrêtent au 31 décembre 2024, ce qui impose une mise à jour externe pour les sujets récents. GLM-4.5-Air convient surtout aux usages recherchant un compromis entre coût très bas, contexte long, poids ouverts et performances générales correctes.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).