Kimi K2 0905

Kimi K2 0905 est un LLM propriétaire de Moonshot AI, publié le 5 septembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 262 144 tokens, un volume de 1000 milliards de paramètres et une base de connaissances arrêtée au 31 décembre 2024.

Kimi K2 0905 est un LLM propriétaire de Moonshot AI, publié le 5 septembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 262 144 tokens, un volume de 1000 milliards de paramètres et une base de connaissances arrêtée au 31 décembre 2024.

Son positionnement combine grand format et coût agressif : la tarification est indiquée comme très économique, nettement sous la moyenne des LLM similaires et très inférieure à celle des modèles frontière. Les données disponibles reposent sur 5 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMoonshot AI
LicenceProprietary (poids non ouverts)
Date de sortie5 septembre 2025
Connaissances jusqu'à2024-12-31
Multimodalnon
Paramètres1000 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)87,0 %135ᵉ / 248benchable✅ Mesuré
LiveBench: Mathematics81,1 %35ᵉ / 76livebench✅ Mesuré
Benchable : Ethics (Baseline)80,0 %219ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)78,0 %124ᵉ / 239benchable✅ Mesuré
Benchable : General Knowledge (Baseline)77,0 %217ᵉ / 250benchable✅ Mesuré
Benchable : Instruction Following (Baseline)72,0 %79ᵉ / 252benchable✅ Mesuré
LiveBench: Coding67,4 %57ᵉ / 76livebench✅ Mesuré
LiveBench: Language66,5 %50ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning63,5 %44ᵉ / 76livebench✅ Mesuré
LiveBench: IF62,0 %28ᵉ / 76livebench✅ Mesuré
LiveBench: Global average61,6 %41ᵉ / 76livebench✅ Mesuré
Benchable : Mathematics (Baseline)53,0 %181ᵉ / 217benchable✅ Mesuré
LiveBench: Data Analysis52,3 %45ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding38,3 %48ᵉ / 76livebench✅ Mesuré
AIME 2025100,0 %1ᵉ / 108llm-statsAuto-déclaré
HMMT 202597,5 %4ᵉ / 33llm-statsAuto-déclaré
HumanEval94,5 %2ᵉ / 65llm-statsAuto-déclaré
MMLU-Redux94,4 %5ᵉ / 48llm-statsAuto-déclaré
MMLU90,2 %8ᵉ / 98llm-statsAuto-déclaré
MATH89,1 %6ᵉ / 70llm-statsAuto-déclaré
LiveCodeBench v683,1 %13ᵉ / 53llm-statsAuto-déclaré
MMLU-Pro82,5 %35ᵉ / 125llm-statsAuto-déclaré
IMO-AnswerBench78,6 %16ᵉ / 18llm-statsAuto-déclaré
GPQA75,8 %88ᵉ / 213llm-statsAuto-déclaré
WritingBench73,8 %15ᵉ / 15llm-statsAuto-déclaré
AIME 202472,0 %38ᵉ / 52llm-statsAuto-déclaré
SWE-Bench Verified71,3 %51ᵉ / 100llm-statsAuto-déclaré
BrowseComp-zh62,3 %8ᵉ / 13llm-statsAuto-déclaré
SWE-bench Multilingual61,1 %23ᵉ / 32llm-statsAuto-déclaré
BrowseComp60,2 %29ᵉ / 51llm-statsAuto-déclaré
HealthBench58,0 %1ᵉ / 5llm-statsAuto-déclaré
Seal-056,3 %2ᵉ / 6llm-statsAuto-déclaré
Humanity's Last Exam51,0 %14ᵉ / 86llm-statsAuto-déclaré
OJBench48,7 %2ᵉ / 9llm-statsAuto-déclaré
Terminal-Bench47,1 %3ᵉ / 25llm-statsAuto-déclaré
SciCode44,8 %8ᵉ / 18llm-statsAuto-déclaré
Multi-SWE-Bench41,9 %4ᵉ / 6llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Qwen2.5 72B Instruct100 %
▶ Kimi K2 0905100 %
Nemotron Nano 9B v298 %

Benchable : Email Classification (Baseline)

nova-premier-v199 %
▶ Kimi K2 090599 %
WizardLM-2 8x22B95 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text143076ᵉ
Arena Text141892ᵉ
Arena Code132967ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
AtlasCloud0,6 $2,5 $0,6 $
NovitaAI0,6 $2,5 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 69 % en dessous de la moyenne des LLM similaires, et 8,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,05 $
Latence moyenne par benchmark — Benchable19 min 17 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Kimi K2 0905 ressort surtout sur les tests liés à la fiabilité factuelle, avec un résultat de premier plan sur Benchable Hallucinations (Baseline), où il se place tout en haut du classement. Il affiche aussi un très bon niveau en Email Classification (Baseline), signe d’une forte tenue sur les tâches de tri et de catégorisation textuelle. En mathématiques, LiveBench le situe dans une zone compétitive, sans en faire un modèle dominant. À sa sortie, son classement GPQA le plaçait dans le top 24% des LLM de sa génération, ce qui le situe dans le haut du panier pour son époque. Son autre atout concret est économique : son prix est 69% inférieur à la moyenne des LLM similaires et environ 8,1 fois inférieur à celui des modèles frontière.

Limites et points d'attention. Les résultats sont plus contrastés en code, en raisonnement général et en éthique, avec des positions de classement qui relèvent davantage du milieu ou du bas de tableau que du niveau de référence. Les classements Arena text et Arena code confirment ce positionnement intermédiaire : le modèle reste compétitif, mais ne s’impose pas parmi les tout premiers sur les évaluations ouvertes de préférence. La licence propriétaire limite aussi l’audit et l’auto-hébergement, puisque les poids ne sont pas ouverts. Kimi K2 0905 convient surtout aux usages où le coût, la très grande fenêtre de contexte et la réduction des hallucinations comptent davantage qu’un niveau maximal en code, en raisonnement avancé ou en alignement éthique.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).