Kimi K2 0905
Kimi K2 0905 est un LLM propriétaire de Moonshot AI, publié le 5 septembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 262 144 tokens, un volume de 1000 milliards de paramètres et une base de connaissances arrêtée au 31 décembre 2024.
Kimi K2 0905 est un LLM propriétaire de Moonshot AI, publié le 5 septembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 262 144 tokens, un volume de 1000 milliards de paramètres et une base de connaissances arrêtée au 31 décembre 2024.
Son positionnement combine grand format et coût agressif : la tarification est indiquée comme très économique, nettement sous la moyenne des LLM similaires et très inférieure à celle des modèles frontière. Les données disponibles reposent sur 5 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Moonshot AI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 5 septembre 2025 |
| Connaissances jusqu'à | 2024-12-31 |
| Multimodal | non |
| Paramètres | 1000 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 87,0 % | 135ᵉ / 248 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 81,1 % | 35ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 80,0 % | 219ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 78,0 % | 124ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 77,0 % | 217ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 72,0 % | 79ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Coding | 67,4 % | 57ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 66,5 % | 50ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 63,5 % | 44ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 62,0 % | 28ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 61,6 % | 41ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 53,0 % | 181ᵉ / 217 | benchable | ✅ Mesuré |
| LiveBench: Data Analysis | 52,3 % | 45ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 38,3 % | 48ᵉ / 76 | livebench | ✅ Mesuré |
| AIME 2025 | 100,0 % | 1ᵉ / 108 | llm-stats | Auto-déclaré |
| HMMT 2025 | 97,5 % | 4ᵉ / 33 | llm-stats | Auto-déclaré |
| HumanEval | 94,5 % | 2ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU-Redux | 94,4 % | 5ᵉ / 48 | llm-stats | Auto-déclaré |
| MMLU | 90,2 % | 8ᵉ / 98 | llm-stats | Auto-déclaré |
| MATH | 89,1 % | 6ᵉ / 70 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 83,1 % | 13ᵉ / 53 | llm-stats | Auto-déclaré |
| MMLU-Pro | 82,5 % | 35ᵉ / 125 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 78,6 % | 16ᵉ / 18 | llm-stats | Auto-déclaré |
| GPQA | 75,8 % | 88ᵉ / 213 | llm-stats | Auto-déclaré |
| WritingBench | 73,8 % | 15ᵉ / 15 | llm-stats | Auto-déclaré |
| AIME 2024 | 72,0 % | 38ᵉ / 52 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 71,3 % | 51ᵉ / 100 | llm-stats | Auto-déclaré |
| BrowseComp-zh | 62,3 % | 8ᵉ / 13 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 61,1 % | 23ᵉ / 32 | llm-stats | Auto-déclaré |
| BrowseComp | 60,2 % | 29ᵉ / 51 | llm-stats | Auto-déclaré |
| HealthBench | 58,0 % | 1ᵉ / 5 | llm-stats | Auto-déclaré |
| Seal-0 | 56,3 % | 2ᵉ / 6 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 51,0 % | 14ᵉ / 86 | llm-stats | Auto-déclaré |
| OJBench | 48,7 % | 2ᵉ / 9 | llm-stats | Auto-déclaré |
| Terminal-Bench | 47,1 % | 3ᵉ / 25 | llm-stats | Auto-déclaré |
| SciCode | 44,8 % | 8ᵉ / 18 | llm-stats | Auto-déclaré |
| Multi-SWE-Bench | 41,9 % | 4ᵉ / 6 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Email Classification (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1430 | 76ᵉ |
| Arena Text | 1418 | 92ᵉ |
| Arena Code | 1329 | 67ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| AtlasCloud | 0,6 $ | 2,5 $ | 0,6 $ |
| NovitaAI | 0,6 $ | 2,5 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 69 % en dessous de la moyenne des LLM similaires, et 8,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,05 $ |
| Latence moyenne par benchmark — Benchable | 19 min 17 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Kimi K2 0905 ressort surtout sur les tests liés à la fiabilité factuelle, avec un résultat de premier plan sur Benchable Hallucinations (Baseline), où il se place tout en haut du classement. Il affiche aussi un très bon niveau en Email Classification (Baseline), signe d’une forte tenue sur les tâches de tri et de catégorisation textuelle. En mathématiques, LiveBench le situe dans une zone compétitive, sans en faire un modèle dominant. À sa sortie, son classement GPQA le plaçait dans le top 24% des LLM de sa génération, ce qui le situe dans le haut du panier pour son époque. Son autre atout concret est économique : son prix est 69% inférieur à la moyenne des LLM similaires et environ 8,1 fois inférieur à celui des modèles frontière.
Limites et points d'attention. Les résultats sont plus contrastés en code, en raisonnement général et en éthique, avec des positions de classement qui relèvent davantage du milieu ou du bas de tableau que du niveau de référence. Les classements Arena text et Arena code confirment ce positionnement intermédiaire : le modèle reste compétitif, mais ne s’impose pas parmi les tout premiers sur les évaluations ouvertes de préférence. La licence propriétaire limite aussi l’audit et l’auto-hébergement, puisque les poids ne sont pas ouverts. Kimi K2 0905 convient surtout aux usages où le coût, la très grande fenêtre de contexte et la réduction des hallucinations comptent davantage qu’un niveau maximal en code, en raisonnement avancé ou en alignement éthique.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).