Kimi K2 Instruct
Kimi K2 Instruct est un LLM de Moonshot AI publié le 11 juillet 2025, diffusé en open-weights sous licence MIT avec usage commercial autorisé. Le modèle se distingue par une très grande taille, 1000 milliards de paramètres, et par une fenêtre de contexte de 200 000 tokens.
Kimi K2 Instruct est un LLM de Moonshot AI publié le 11 juillet 2025, diffusé en open-weights sous licence MIT avec usage commercial autorisé. Le modèle se distingue par une très grande taille, 1000 milliards de paramètres, et par une fenêtre de contexte de 200 000 tokens.
Son positionnement combine grande capacité de contexte et prix très bas : ses tarifs sont indiqués comme très économiques, 71% sous la moyenne des LLM similaires et environ 8,5 fois moins chers que les modèles frontière. Sa base de connaissances s'arrête au 31 décembre 2024.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Moonshot AI |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 11 juillet 2025 |
| Connaissances jusqu'à | 2024-12-31 |
| Multimodal | non |
| Paramètres | 1000 milliards |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| LiveBench: Coding | 74,3 % | 26ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 66,7 % | 49ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Mathematics | 58,2 % | 68ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 48,1 % | 64ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 43,3 % | 70ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 42,2 % | 63ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 31,7 % | 56ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 20,4 % | 70ᵉ / 76 | livebench | ✅ Mesuré |
| MATH-500 | 97,4 % | 6ᵉ / 31 | llm-stats | Auto-déclaré |
| GSM8k | 97,3 % | 2ᵉ / 47 | llm-stats | Auto-déclaré |
| HumanEval | 93,3 % | 5ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU-Redux | 92,7 % | 16ᵉ / 48 | llm-stats | Auto-déclaré |
| IFEval | 89,8 % | 16ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU | 89,5 % | 12ᵉ / 98 | llm-stats | Auto-déclaré |
| ZebraLogic | 89,0 % | 5ᵉ / 7 | llm-stats | Auto-déclaré |
| MultiPL-E | 85,7 % | 4ᵉ / 13 | llm-stats | Auto-déclaré |
| MMLU-Pro | 81,1 % | 44ᵉ / 125 | llm-stats | Auto-déclaré |
| CSimpleQA | 78,4 % | 5ᵉ / 7 | llm-stats | Auto-déclaré |
| LiveBench | 76,4 % | 9ᵉ / 38 | llm-stats | Auto-déclaré |
| GPQA | 75,1 % | 91ᵉ / 213 | llm-stats | Auto-déclaré |
| CNMO 2024 | 74,3 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| Tau2 Retail | 70,6 % | 19ᵉ / 25 | llm-stats | Auto-déclaré |
| AIME 2024 | 69,6 % | 40ᵉ / 52 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 65,8 % | 26ᵉ / 34 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 60,0 % | 12ᵉ / 22 | llm-stats | Auto-déclaré |
| SuperGPQA | 57,2 % | 21ᵉ / 34 | llm-stats | Auto-déclaré |
| Tau2 Airline | 56,5 % | 15ᵉ / 22 | llm-stats | Auto-déclaré |
| Multi-Challenge | 54,1 % | 14ᵉ / 28 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 53,7 % | 42ᵉ / 53 | llm-stats | Auto-déclaré |
| AIME 2025 | 49,5 % | 96ᵉ / 108 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 47,3 % | 28ᵉ / 32 | llm-stats | Auto-déclaré |
| HMMT 2025 | 38,8 % | 29ᵉ / 33 | llm-stats | Auto-déclaré |
| SimpleQA | 31,0 % | 24ᵉ / 45 | llm-stats | Auto-déclaré |
| Terminal-Bench | 30,0 % | 20ᵉ / 25 | llm-stats | Auto-déclaré |
| OJBench | 27,1 % | 8ᵉ / 9 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 4,7 % | 84ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
LiveBench: Coding
LiveBench: Language
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| NovitaAI | 0,57 $ | 2,3 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 71 % en dessous de la moyenne des LLM similaires, et 8,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Notre analyse
Forces. Kimi K2 Instruct ressort surtout par son rapport entre échelle, licence et coût. La licence MIT autorise les usages commerciaux, ce qui le rend plus ouvert que de nombreux LLM propriétaires. Sur LiveBench, son meilleur domaine est Coding (programmation), où il se place dans la première moitié du classement, devant ses résultats en langage, mathématiques, raisonnement et analyse de données. À sa sortie, il figurait aussi dans le top 22% des LLM de sa génération sur GPQA, ce qui le situait dans le haut du panier de son époque sur ce benchmark.
Limites et points d'attention. Les résultats LiveBench montrent un profil inégal : Language (compréhension du langage) reste en milieu de tableau, tandis que Mathematics (mathématiques), Reasoning (raisonnement) et Data Analysis (analyse de données) se situent nettement plus bas. La moyenne globale confirme que le modèle n'est pas un généraliste de premier plan malgré sa taille. Sa fenêtre de 200 000 tokens et son prix bas constituent donc ses principaux arguments pratiques. Le modèle convient surtout aux usages où le coût, l'ouverture des poids, le contexte long et les tâches de code priment sur les meilleurs niveaux de raisonnement ou d'analyse de données.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai).