Kimi K2.6
Kimi K2.6 est un LLM de Moonshot AI, éditeur chinois, publié le 20 avril 2026. Il se distingue par une fenêtre de contexte de 262 144 tokens et une architecture annoncée à 1000 milliards de paramètres, dont 32 milliards actifs.
Kimi K2.6 est un LLM de Moonshot AI, éditeur chinois, publié le 20 avril 2026. Il se distingue par une fenêtre de contexte de 262 144 tokens et une architecture annoncée à 1000 milliards de paramètres, dont 32 milliards actifs.
Le modèle vise un positionnement performant mais très économique, avec des tarifs 66% inférieurs à la moyenne des LLM similaires et environ 7,3 fois moins chers que les modèles frontière. À sa sortie, il se situait dans le top 12% de sa génération sur GPQA diamond.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Moonshot AI |
| Licence | Modified MIT License (poids non ouverts) |
| Date de sortie | 20 avril 2026 |
| Multimodal | oui |
| Paramètres | 1000 milliards |
| Paramètres actifs | 32 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 42.8 | 13ᵉ / 136 |
| Code Index | 56.0 | 20ᵉ / 50 |
| Agentic Index | 30.3 | 14ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 157ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 96,1 % | 8ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,0 % | 58ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 90,8 % | 12ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 90,0 % | 2ᵉ / 64 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 82,0 % | 41ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: SWE-Bench verified | 76,7 % | 9ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 57,2 % | 15ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 39,0 % | 10ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 38,7 % | 28ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 26,0 % | 17ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 25,6 % | 16ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 14,6 % | 16ᵉ / 55 | epoch | ✅ Mesuré |
| V* | 96,9 % | 1ᵉ / 7 | llm-stats | Auto-déclaré |
| AIME 2026 | 96,4 % | 2ᵉ / 17 | llm-stats | Auto-déclaré |
| MathVision | 93,2 % | 2ᵉ / 31 | llm-stats | Auto-déclaré |
| HMMT Feb 26 | 92,7 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| GPQA | 90,5 % | 13ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 89,6 % | 2ᵉ / 53 | llm-stats | Auto-déclaré |
| CharXiv-R | 86,7 % | 4ᵉ / 42 | llm-stats | Auto-déclaré |
| BrowseComp | 86,3 % | 3ᵉ / 51 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 86,0 % | 6ᵉ / 18 | llm-stats | Auto-déclaré |
| DeepSearchQA | 83,0 % | 4ᵉ / 6 | llm-stats | Auto-déclaré |
| Claw-Eval | 80,9 % | 1ᵉ / 12 | llm-stats | Auto-déclaré |
| WideSearch | 80,8 % | 1ᵉ / 8 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 80,2 % | 11ᵉ / 100 | llm-stats | Auto-déclaré |
| MMMU-Pro | 80,1 % | 10ᵉ / 60 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 76,7 % | 5ᵉ / 32 | llm-stats | Auto-déclaré |
| OSWorld-Verified | 73,1 % | 9ᵉ / 17 | llm-stats | Auto-déclaré |
| LiveBench | 72,2 % | 25ᵉ / 38 | llm-stats | n.d. |
| BabyVision | 68,5 % | 3ᵉ / 7 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 66,7 % | 14ᵉ / 48 | llm-stats | Auto-déclaré |
| OJBench | 60,6 % | 1ᵉ / 9 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 58,6 % | 8ᵉ / 34 | llm-stats | Auto-déclaré |
| MCP-Mark | 55,9 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| SciCode | 52,2 % | 5ᵉ / 18 | llm-stats | Auto-déclaré |
| Toolathlon | 50,0 % | 7ᵉ / 23 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 44,9 % | 10ᵉ / 25 | llm-stats | n.d. |
| GDPval-AA | 40,1 % | 16ᵉ / 33 | llm-stats | n.d. |
| Humanity's Last Exam | 36,4 % | 34ᵉ / 86 | llm-stats | Auto-déclaré |
| APEX-Agents | 27,9 % | 4ᵉ / 5 | llm-stats | Auto-déclaré |
| FrontierSWE | 27,0 % | 11ᵉ / 13 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Image-to-Code | 1522 | 7ᵉ |
| Arena Code | 1513 | 13ᵉ |
| Arena Text | 1461 | 33ᵉ |
| Arena Document | 1451 | 13ᵉ |
| Arena Vision | 1265 | 20ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Decart | 0,66 $ | 3,41 $ | 0,144 $ |
| deepinfra | 0,75 $ | 3,5 $ | n.d. |
| fireworks | 0,95 $ | 4 $ | n.d. |
| artificialanalysis | 0,95 $ | 4 $ | 0,16 $ |
| together | 1,2 $ | 4,5 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 66 % en dessous de la moyenne des LLM similaires, et 7,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,51 $ |
| Latence moyenne par benchmark — Benchable | 36 min 08 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | China |
Notre analyse
Forces. Kimi K2.6 affiche de très bons résultats sur les tâches générales évaluées par Benchable, avec des performances de premier plan en General Knowledge, Email Classification et Reasoning. Son score sur OTIS Mock AIME 2024-2025, un benchmark d’olympiades de mathématiques de niveau lycée, le place aussi dans le top 10, ce qui signale une forte capacité en raisonnement formel. Le modèle est solide en code, avec un bon classement dans Arena image-to-code et Arena code, tandis que son Agentic Index le place dans le haut du tableau des modèles évalués. Sa grande fenêtre de contexte renforce son intérêt pour l’analyse de documents longs, la synthèse multi-sources et les workflows nécessitant beaucoup de contexte.
Limites et points d'attention. Les résultats sont moins nets sur Ethics et Hallucinations, où Kimi K2.6 ne se situe pas parmi les meilleurs malgré des scores élevés en valeur absolue. Arena text est également moins favorable que les évaluations orientées code, ce qui suggère un positionnement plus convaincant pour les tâches techniques que pour la préférence générale en conversation. La licence est indiquée comme Modified MIT License, mais les poids ne sont pas ouverts, ce qui limite l’audit indépendant et certains usages d’hébergement autonome. Kimi K2.6 convient surtout aux usages à fort volume, aux tâches de raisonnement, de classification et de code, lorsque le coût par token est un critère central.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).