Moonshot AI

Kimi K2 0905

Kimi K2 0905 est un LLM propriétaire de Moonshot AI, publié le 5 septembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 262 144 tokens, un volume de 1000 milliards de paramètres et une base de connaissances arrêtée au 31 décembre 2024.

Son positionnement combine grand format et coût agressif : la tarification est indiquée comme très économique, nettement sous la moyenne des LLM similaires et très inférieure à celle des modèles frontière. Les données disponibles reposent sur 5 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Moonshot AI
Licence	Proprietary (poids non ouverts)
Date de sortie	5 septembre 2025
Connaissances jusqu'à	2024-12-31
Multimodal	non
Paramètres	1000 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	87,0 %	135ᵉ / 248	benchable	✅ Mesuré
LiveBench: Mathematics	81,1 %	35ᵉ / 76	livebench	✅ Mesuré
Benchable : Ethics (Baseline)	80,0 %	219ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	78,0 %	124ᵉ / 239	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	77,0 %	217ᵉ / 250	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	72,0 %	79ᵉ / 252	benchable	✅ Mesuré
LiveBench: Coding	67,4 %	57ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	66,5 %	50ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	63,5 %	44ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	62,0 %	28ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	61,6 %	41ᵉ / 76	livebench	✅ Mesuré
Benchable : Mathematics (Baseline)	53,0 %	181ᵉ / 217	benchable	✅ Mesuré
LiveBench: Data Analysis	52,3 %	45ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	38,3 %	48ᵉ / 76	livebench	✅ Mesuré
AIME 2025	100,0 %	1ᵉ / 108	llm-stats	Auto-déclaré
HMMT 2025	97,5 %	4ᵉ / 33	llm-stats	Auto-déclaré
HumanEval	94,5 %	2ᵉ / 65	llm-stats	Auto-déclaré
MMLU-Redux	94,4 %	5ᵉ / 48	llm-stats	Auto-déclaré
MMLU	90,2 %	8ᵉ / 98	llm-stats	Auto-déclaré
MATH	89,1 %	6ᵉ / 70	llm-stats	Auto-déclaré
LiveCodeBench v6	83,1 %	13ᵉ / 53	llm-stats	Auto-déclaré
MMLU-Pro	82,5 %	35ᵉ / 125	llm-stats	Auto-déclaré
IMO-AnswerBench	78,6 %	16ᵉ / 18	llm-stats	Auto-déclaré
GPQA	75,8 %	88ᵉ / 213	llm-stats	Auto-déclaré
WritingBench	73,8 %	15ᵉ / 15	llm-stats	Auto-déclaré
AIME 2024	72,0 %	38ᵉ / 52	llm-stats	Auto-déclaré
SWE-Bench Verified	71,3 %	51ᵉ / 100	llm-stats	Auto-déclaré
BrowseComp-zh	62,3 %	8ᵉ / 13	llm-stats	Auto-déclaré
SWE-bench Multilingual	61,1 %	23ᵉ / 32	llm-stats	Auto-déclaré
BrowseComp	60,2 %	29ᵉ / 51	llm-stats	Auto-déclaré
HealthBench	58,0 %	1ᵉ / 5	llm-stats	Auto-déclaré
Seal-0	56,3 %	2ᵉ / 6	llm-stats	Auto-déclaré
Humanity's Last Exam	51,0 %	14ᵉ / 86	llm-stats	Auto-déclaré
OJBench	48,7 %	2ᵉ / 9	llm-stats	Auto-déclaré
Terminal-Bench	47,1 %	3ᵉ / 25	llm-stats	Auto-déclaré
SciCode	44,8 %	8ᵉ / 18	llm-stats	Auto-déclaré
Multi-SWE-Bench	41,9 %	4ᵉ / 6	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Kimi K2 0905100 %

Nemotron Nano 9B v298 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Kimi K2 090599 %

WizardLM-2 8x22B95 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1430	76ᵉ
Arena Text	1418	92ᵉ
Arena Code	1329	67ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
AtlasCloud	0,6 $	2,5 $	0,6 $
NovitaAI	0,6 $	2,5 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 69 % en dessous de la moyenne des LLM similaires, et 8,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,05 $
Latence moyenne par benchmark — Benchable	19 min 17 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Kimi K2 0905 ressort surtout sur les tests liés à la fiabilité factuelle, avec un résultat de premier plan sur Benchable Hallucinations (Baseline), où il se place tout en haut du classement. Il affiche aussi un très bon niveau en Email Classification (Baseline), signe d’une forte tenue sur les tâches de tri et de catégorisation textuelle. En mathématiques, LiveBench le situe dans une zone compétitive, sans en faire un modèle dominant. À sa sortie, son classement GPQA le plaçait dans le top 24% des LLM de sa génération, ce qui le situe dans le haut du panier pour son époque. Son autre atout concret est économique : son prix est 69% inférieur à la moyenne des LLM similaires et environ 8,1 fois inférieur à celui des modèles frontière.

Limites et points d'attention. Les résultats sont plus contrastés en code, en raisonnement général et en éthique, avec des positions de classement qui relèvent davantage du milieu ou du bas de tableau que du niveau de référence. Les classements Arena text et Arena code confirment ce positionnement intermédiaire : le modèle reste compétitif, mais ne s’impose pas parmi les tout premiers sur les évaluations ouvertes de préférence. La licence propriétaire limite aussi l’audit et l’auto-hébergement, puisque les poids ne sont pas ouverts. Kimi K2 0905 convient surtout aux usages où le coût, la très grande fenêtre de contexte et la réduction des hallucinations comptent davantage qu’un niveau maximal en code, en raisonnement avancé ou en alignement éthique.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Kimi K2 0905

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast