Kimi K2.7 Code
Kimi K2.7 Code est un LLM de Moonshot AI sorti le 12 juin 2026, positionné comme un modèle orienté code à très grande échelle. Il combine 1000 milliards de paramètres avec 32 milliards de paramètres actifs et une fenêtre de contexte de 262 144 tokens, un format adapté aux entrées longues…
Kimi K2.7 Code est un LLM de Moonshot AI sorti le 12 juin 2026, positionné comme un modèle orienté code à très grande échelle. Il combine 1000 milliards de paramètres avec 32 milliards de paramètres actifs et une fenêtre de contexte de 262 144 tokens, un format adapté aux entrées longues et aux bases de code volumineuses.
Son positionnement le distingue surtout par le prix : l’entrée démarre à 0,74 $ par million de tokens et la sortie à 3,5 $, soit un niveau très économique, 62% sous la moyenne des LLM similaires. La licence est une Modified MIT License, mais les poids ne sont pas ouverts.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Moonshot AI |
| Licence | Modified MIT License (poids non ouverts) |
| Date de sortie | 12 juin 2026 |
| Multimodal | oui |
| Paramètres | 1000 milliards |
| Paramètres actifs | 32 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 41.9 | 15ᵉ / 136 |
| Code Index | 60.8 | 11ᵉ / 50 |
| Agentic Index | 29.6 | 17ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 96,4 % | 7ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 94,0 % | 61ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 93,0 % | 194ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 93,0 % | 212ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,0 % | 92ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 91,0 % | 98ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 89,5 % | 17ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Reasoning | 82,8 % | 12ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Mathematics | 79,6 % | 39ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 77,9 % | 18ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 76,1 % | 16ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Coding | 74,0 % | 28ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 71,9 % | 21ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 70,0 % | 2ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 62,7 % | 32ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 56,3 % | 41ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 54,0 % | 18ᵉ / 31 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 42,0 % | 190ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: SimpleQA Verified | 39,2 % | 26ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 21,0 % | 21ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 12,2 % | 21ᵉ / 32 | epoch | ✅ Mesuré |
| MCP-Mark | 81,1 % | 1ᵉ / 8 | llm-stats | Auto-déclaré |
| MCP Atlas | 76,0 % | 8ᵉ / 27 | llm-stats | Auto-déclaré |
| LiveBench | 71,9 % | 27ᵉ / 38 | llm-stats | n.d. |
| Program Bench | 53,6 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1479 | 20ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| deepinfra | 0,74 $ | 3,5 $ | n.d. |
| DeepInfra | 0,74 $ | 3,5 $ | 0,15 $ |
| fireworks | 0,95 $ | 4 $ | n.d. |
| artificialanalysis | 0,95 $ | 4 $ | 0,16 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 62 % en dessous de la moyenne des LLM similaires, et 6,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 10,92 $ |
| Durée d'exécution — PinchBench | 4 h 55 min |
| Indice valeur/coût — PinchBench | 7,77 |
| Coût moyen par benchmark — Benchable | 0,14 $ |
| Latence moyenne par benchmark — Benchable | 18 min 33 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Kimi K2.7 Code se situe dans le haut du classement en code, avec un Code Index élevé et un rang solide dans Arena code. Son résultat sur Epoch: OTIS Mock AIME 2024-2025, qui mesure des olympiades de mathématiques niveau lycée, le place dans le top 10 du benchmark, signe d’un raisonnement mathématique compétitif. À sa sortie, il figurait aussi dans le top 21% sur GPQA diamond parmi les LLM de sa génération, ce qui le situe favorablement pour son époque. La grande fenêtre de contexte constitue un autre atout concret pour traiter de longs prompts, des dépôts logiciels ou des documents techniques étendus.
Limites et points d'attention. Le profil reste moins homogène hors code et raisonnement formel : General Knowledge, Ethics et Email Classification affichent des scores élevés en valeur absolue, mais des rangs plus modestes dans leurs panels respectifs. L’Agentic Index reste correct sans placer le modèle parmi les tout premiers agents. La licence ne donne pas accès aux poids, ce qui limite les usages nécessitant un déploiement ou un audit complet du modèle. Son principal intérêt opérationnel tient donc à un compromis net entre code, long contexte et coût, avec un tarif très inférieur à celui des modèles frontière.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).