Moonshot AI

Kimi K2 Instruct

Kimi K2 Instruct est un LLM de Moonshot AI publié le 11 juillet 2025, diffusé en open-weights sous licence MIT avec usage commercial autorisé. Le modèle se distingue par une très grande taille, 1000 milliards de paramètres, et par une fenêtre de contexte de 200 000 tokens.

Son positionnement combine grande capacité de contexte et prix très bas : ses tarifs sont indiqués comme très économiques, 71% sous la moyenne des LLM similaires et environ 8,5 fois moins chers que les modèles frontière. Sa base de connaissances s'arrête au 31 décembre 2024.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Moonshot AI
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	11 juillet 2025
Connaissances jusqu'à	2024-12-31
Multimodal	non
Paramètres	1000 milliards
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
LiveBench: Coding	74,3 %	26ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	66,7 %	49ᵉ / 76	livebench	✅ Mesuré
LiveBench: Mathematics	58,2 %	68ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	48,1 %	64ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	43,3 %	70ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	42,2 %	63ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	31,7 %	56ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	20,4 %	70ᵉ / 76	livebench	✅ Mesuré
MATH-500	97,4 %	6ᵉ / 31	llm-stats	Auto-déclaré
GSM8k	97,3 %	2ᵉ / 47	llm-stats	Auto-déclaré
HumanEval	93,3 %	5ᵉ / 65	llm-stats	Auto-déclaré
MMLU-Redux	92,7 %	16ᵉ / 48	llm-stats	Auto-déclaré
IFEval	89,8 %	16ᵉ / 65	llm-stats	Auto-déclaré
MMLU	89,5 %	12ᵉ / 98	llm-stats	Auto-déclaré
ZebraLogic	89,0 %	5ᵉ / 7	llm-stats	Auto-déclaré
MultiPL-E	85,7 %	4ᵉ / 13	llm-stats	Auto-déclaré
MMLU-Pro	81,1 %	44ᵉ / 125	llm-stats	Auto-déclaré
CSimpleQA	78,4 %	5ᵉ / 7	llm-stats	Auto-déclaré
LiveBench	76,4 %	9ᵉ / 38	llm-stats	Auto-déclaré
GPQA	75,1 %	91ᵉ / 213	llm-stats	Auto-déclaré
CNMO 2024	74,3 %	1ᵉ / 3	llm-stats	Auto-déclaré
Tau2 Retail	70,6 %	19ᵉ / 25	llm-stats	Auto-déclaré
AIME 2024	69,6 %	40ᵉ / 52	llm-stats	Auto-déclaré
Tau2 Telecom	65,8 %	26ᵉ / 34	llm-stats	Auto-déclaré
Aider-Polyglot	60,0 %	12ᵉ / 22	llm-stats	Auto-déclaré
SuperGPQA	57,2 %	21ᵉ / 34	llm-stats	Auto-déclaré
Tau2 Airline	56,5 %	15ᵉ / 22	llm-stats	Auto-déclaré
Multi-Challenge	54,1 %	14ᵉ / 28	llm-stats	Auto-déclaré
LiveCodeBench v6	53,7 %	42ᵉ / 53	llm-stats	Auto-déclaré
AIME 2025	49,5 %	96ᵉ / 108	llm-stats	Auto-déclaré
SWE-bench Multilingual	47,3 %	28ᵉ / 32	llm-stats	Auto-déclaré
HMMT 2025	38,8 %	29ᵉ / 33	llm-stats	Auto-déclaré
SimpleQA	31,0 %	24ᵉ / 45	llm-stats	Auto-déclaré
Terminal-Bench	30,0 %	20ᵉ / 25	llm-stats	Auto-déclaré
OJBench	27,1 %	8ᵉ / 9	llm-stats	Auto-déclaré
Humanity's Last Exam	4,7 %	84ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Coding

GPT-5.2 Codex84 %

Claude Opus 4.782 %

Gemini 3.5 Flash78 %

Qwen3.6 Plus78 %

▶ Kimi K2 Instruct74 %

Grok-473 %

LiveBench: Language

Claude Fable 588 %

GPT-5.588 %

Gemini 3.1 Pro Preview85 %

Grok 4.20 Beta78 %

▶ Kimi K2 Instruct67 %

Nemotron 3 Ultra52 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
NovitaAI	0,57 $	2,3 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 71 % en dessous de la moyenne des LLM similaires, et 8,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Kimi K2 Instruct ressort surtout par son rapport entre échelle, licence et coût. La licence MIT autorise les usages commerciaux, ce qui le rend plus ouvert que de nombreux LLM propriétaires. Sur LiveBench, son meilleur domaine est Coding (programmation), où il se place dans la première moitié du classement, devant ses résultats en langage, mathématiques, raisonnement et analyse de données. À sa sortie, il figurait aussi dans le top 22% des LLM de sa génération sur GPQA, ce qui le situait dans le haut du panier de son époque sur ce benchmark.

Limites et points d'attention. Les résultats LiveBench montrent un profil inégal : Language (compréhension du langage) reste en milieu de tableau, tandis que Mathematics (mathématiques), Reasoning (raisonnement) et Data Analysis (analyse de données) se situent nettement plus bas. La moyenne globale confirme que le modèle n'est pas un généraliste de premier plan malgré sa taille. Sa fenêtre de 200 000 tokens et son prix bas constituent donc ses principaux arguments pratiques. Le modèle convient surtout aux usages où le coût, l'ouverture des poids, le contexte long et les tâches de code priment sur les meilleurs niveaux de raisonnement ou d'analyse de données.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai).

Kimi K2 Instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast