Kimi K2 Instruct

Kimi K2 Instruct est un LLM de Moonshot AI publié le 11 juillet 2025, diffusé en open-weights sous licence MIT avec usage commercial autorisé. Le modèle se distingue par une très grande taille, 1000 milliards de paramètres, et par une fenêtre de contexte de 200 000 tokens.

Kimi K2 Instruct est un LLM de Moonshot AI publié le 11 juillet 2025, diffusé en open-weights sous licence MIT avec usage commercial autorisé. Le modèle se distingue par une très grande taille, 1000 milliards de paramètres, et par une fenêtre de contexte de 200 000 tokens.

Son positionnement combine grande capacité de contexte et prix très bas : ses tarifs sont indiqués comme très économiques, 71% sous la moyenne des LLM similaires et environ 8,5 fois moins chers que les modèles frontière. Sa base de connaissances s'arrête au 31 décembre 2024.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMoonshot AI
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie11 juillet 2025
Connaissances jusqu'à2024-12-31
Multimodalnon
Paramètres1000 milliards
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
LiveBench: Coding74,3 %26ᵉ / 76livebench✅ Mesuré
LiveBench: Language66,7 %49ᵉ / 76livebench✅ Mesuré
LiveBench: Mathematics58,2 %68ᵉ / 76livebench✅ Mesuré
LiveBench: Global average48,1 %64ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis43,3 %70ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning42,2 %63ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding31,7 %56ᵉ / 76livebench✅ Mesuré
LiveBench: IF20,4 %70ᵉ / 76livebench✅ Mesuré
MATH-50097,4 %6ᵉ / 31llm-statsAuto-déclaré
GSM8k97,3 %2ᵉ / 47llm-statsAuto-déclaré
HumanEval93,3 %5ᵉ / 65llm-statsAuto-déclaré
MMLU-Redux92,7 %16ᵉ / 48llm-statsAuto-déclaré
IFEval89,8 %16ᵉ / 65llm-statsAuto-déclaré
MMLU89,5 %12ᵉ / 98llm-statsAuto-déclaré
ZebraLogic89,0 %5ᵉ / 7llm-statsAuto-déclaré
MultiPL-E85,7 %4ᵉ / 13llm-statsAuto-déclaré
MMLU-Pro81,1 %44ᵉ / 125llm-statsAuto-déclaré
CSimpleQA78,4 %5ᵉ / 7llm-statsAuto-déclaré
LiveBench76,4 %9ᵉ / 38llm-statsAuto-déclaré
GPQA75,1 %91ᵉ / 213llm-statsAuto-déclaré
CNMO 202474,3 %1ᵉ / 3llm-statsAuto-déclaré
Tau2 Retail70,6 %19ᵉ / 25llm-statsAuto-déclaré
AIME 202469,6 %40ᵉ / 52llm-statsAuto-déclaré
Tau2 Telecom65,8 %26ᵉ / 34llm-statsAuto-déclaré
Aider-Polyglot60,0 %12ᵉ / 22llm-statsAuto-déclaré
SuperGPQA57,2 %21ᵉ / 34llm-statsAuto-déclaré
Tau2 Airline56,5 %15ᵉ / 22llm-statsAuto-déclaré
Multi-Challenge54,1 %14ᵉ / 28llm-statsAuto-déclaré
LiveCodeBench v653,7 %42ᵉ / 53llm-statsAuto-déclaré
AIME 202549,5 %96ᵉ / 108llm-statsAuto-déclaré
SWE-bench Multilingual47,3 %28ᵉ / 32llm-statsAuto-déclaré
HMMT 202538,8 %29ᵉ / 33llm-statsAuto-déclaré
SimpleQA31,0 %24ᵉ / 45llm-statsAuto-déclaré
Terminal-Bench30,0 %20ᵉ / 25llm-statsAuto-déclaré
OJBench27,1 %8ᵉ / 9llm-statsAuto-déclaré
Humanity's Last Exam4,7 %84ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Coding

Qwen3.6 Plus78 %
▶ Kimi K2 Instruct74 %
Grok-473 %

LiveBench: Language

▶ Kimi K2 Instruct67 %
Nemotron 3 Ultra52 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
NovitaAI0,57 $2,3 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 71 % en dessous de la moyenne des LLM similaires, et 8,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Kimi K2 Instruct ressort surtout par son rapport entre échelle, licence et coût. La licence MIT autorise les usages commerciaux, ce qui le rend plus ouvert que de nombreux LLM propriétaires. Sur LiveBench, son meilleur domaine est Coding (programmation), où il se place dans la première moitié du classement, devant ses résultats en langage, mathématiques, raisonnement et analyse de données. À sa sortie, il figurait aussi dans le top 22% des LLM de sa génération sur GPQA, ce qui le situait dans le haut du panier de son époque sur ce benchmark.

Limites et points d'attention. Les résultats LiveBench montrent un profil inégal : Language (compréhension du langage) reste en milieu de tableau, tandis que Mathematics (mathématiques), Reasoning (raisonnement) et Data Analysis (analyse de données) se situent nettement plus bas. La moyenne globale confirme que le modèle n'est pas un généraliste de premier plan malgré sa taille. Sa fenêtre de 200 000 tokens et son prix bas constituent donc ses principaux arguments pratiques. Le modèle convient surtout aux usages où le coût, l'ouverture des poids, le contexte long et les tâches de code priment sur les meilleurs niveaux de raisonnement ou d'analyse de données.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai).