Kimi K2.7 Code

Kimi K2.7 Code est un LLM de Moonshot AI sorti le 12 juin 2026, positionné comme un modèle orienté code à très grande échelle. Il combine 1000 milliards de paramètres avec 32 milliards de paramètres actifs et une fenêtre de contexte de 262 144 tokens, un format adapté aux entrées longues…

Kimi K2.7 Code est un LLM de Moonshot AI sorti le 12 juin 2026, positionné comme un modèle orienté code à très grande échelle. Il combine 1000 milliards de paramètres avec 32 milliards de paramètres actifs et une fenêtre de contexte de 262 144 tokens, un format adapté aux entrées longues et aux bases de code volumineuses.

Son positionnement le distingue surtout par le prix : l’entrée démarre à 0,74 $ par million de tokens et la sortie à 3,5 $, soit un niveau très économique, 62% sous la moyenne des LLM similaires. La licence est une Modified MIT License, mais les poids ne sont pas ouverts.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMoonshot AI
LicenceModified MIT License (poids non ouverts)
Date de sortie12 juin 2026
Multimodaloui
Paramètres1000 milliards
Paramètres actifs32 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index41.915ᵉ / 136
Code Index60.811ᵉ / 50
Agentic Index29.617ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202596,4 %7ᵉ / 111epoch✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)94,0 %61ᵉ / 239benchable✅ Mesuré
Benchable : General Knowledge (Baseline)93,0 %194ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)93,0 %212ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)92,0 %92ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)91,0 %98ᵉ / 248benchable✅ Mesuré
Epoch: GPQA diamond89,5 %17ᵉ / 132epoch✅ Mesuré
LiveBench: Reasoning82,8 %12ᵉ / 76livebench✅ Mesuré
LiveBench: Mathematics79,6 %39ᵉ / 76livebench✅ Mesuré
LiveBench: Language77,9 %18ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)76,1 %16ᵉ / 52pinchbench✅ Mesuré
LiveBench: Coding74,0 %28ᵉ / 76livebench✅ Mesuré
LiveBench: Global average71,9 %21ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding70,0 %2ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis62,7 %32ᵉ / 76livebench✅ Mesuré
LiveBench: IF56,3 %41ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private54,0 %18ᵉ / 31epoch✅ Mesuré
Benchable : Instruction Following (Baseline)42,0 %190ᵉ / 252benchable✅ Mesuré
Epoch: SimpleQA Verified39,2 %26ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles21,0 %21ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private12,2 %21ᵉ / 32epoch✅ Mesuré
MCP-Mark81,1 %1ᵉ / 8llm-statsAuto-déclaré
MCP Atlas76,0 %8ᵉ / 27llm-statsAuto-déclaré
LiveBench71,9 %27ᵉ / 38llm-statsn.d.
Program Bench53,6 %2ᵉ / 4llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ Kimi K2.7 Code41.9
Grok Build 0.1 061639.8

Code Index

Qwen3.7 Max66.0
▶ Kimi K2.7 Code60.8

Classements Arena (Elo)

CatégorieEloRang
Arena Code147920ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
deepinfra0,74 $3,5 $n.d.
DeepInfra0,74 $3,5 $0,15 $
fireworks0,95 $4 $n.d.
artificialanalysis0,95 $4 $0,16 $

Prix en dollars US par million de tokens.

Sa tarification se situe 62 % en dessous de la moyenne des LLM similaires, et 6,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)10,92 $
Durée d'exécution — PinchBench4 h 55 min
Indice valeur/coût — PinchBench7,77
Coût moyen par benchmark — Benchable0,14 $
Latence moyenne par benchmark — Benchable18 min 33 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Kimi K2.7 Code se situe dans le haut du classement en code, avec un Code Index élevé et un rang solide dans Arena code. Son résultat sur Epoch: OTIS Mock AIME 2024-2025, qui mesure des olympiades de mathématiques niveau lycée, le place dans le top 10 du benchmark, signe d’un raisonnement mathématique compétitif. À sa sortie, il figurait aussi dans le top 21% sur GPQA diamond parmi les LLM de sa génération, ce qui le situe favorablement pour son époque. La grande fenêtre de contexte constitue un autre atout concret pour traiter de longs prompts, des dépôts logiciels ou des documents techniques étendus.

Limites et points d'attention. Le profil reste moins homogène hors code et raisonnement formel : General Knowledge, Ethics et Email Classification affichent des scores élevés en valeur absolue, mais des rangs plus modestes dans leurs panels respectifs. L’Agentic Index reste correct sans placer le modèle parmi les tout premiers agents. La licence ne donne pas accès aux poids, ce qui limite les usages nécessitant un déploiement ou un audit complet du modèle. Son principal intérêt opérationnel tient donc à un compromis net entre code, long contexte et coût, avec un tarif très inférieur à celui des modèles frontière.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).