Moonshot AI

Kimi K2.6

Kimi K2.6 est un LLM de Moonshot AI, éditeur chinois, publié le 20 avril 2026. Il se distingue par une fenêtre de contexte de 262 144 tokens et une architecture annoncée à 1000 milliards de paramètres, dont 32 milliards actifs.

Le modèle vise un positionnement performant mais très économique, avec des tarifs 66% inférieurs à la moyenne des LLM similaires et environ 7,3 fois moins chers que les modèles frontière. À sa sortie, il se situait dans le top 12% de sa génération sur GPQA diamond.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Moonshot AI
Licence	Modified MIT License (poids non ouverts)
Date de sortie	20 avril 2026
Multimodal	oui
Paramètres	1000 milliards
Paramètres actifs	32 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	42.8	13ᵉ / 136
Code Index	56.0	20ᵉ / 50
Agentic Index	30.3	14ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	157ᵉ / 248	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	96,1 %	8ᵉ / 111	epoch	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,0 %	58ᵉ / 248	benchable	✅ Mesuré
Epoch: GPQA diamond	90,8 %	12ᵉ / 132	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	90,0 %	2ᵉ / 64	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	82,0 %	41ᵉ / 252	benchable	✅ Mesuré
Epoch: SWE-Bench verified	76,7 %	9ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	57,2 %	15ᵉ / 31	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	39,0 %	10ᵉ / 69	epoch	✅ Mesuré
Epoch: SimpleQA Verified	38,7 %	28ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	26,0 %	17ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	25,6 %	16ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	14,6 %	16ᵉ / 55	epoch	✅ Mesuré
V*	96,9 %	1ᵉ / 7	llm-stats	Auto-déclaré
AIME 2026	96,4 %	2ᵉ / 17	llm-stats	Auto-déclaré
MathVision	93,2 %	2ᵉ / 31	llm-stats	Auto-déclaré
HMMT Feb 26	92,7 %	5ᵉ / 11	llm-stats	Auto-déclaré
GPQA	90,5 %	13ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench v6	89,6 %	2ᵉ / 53	llm-stats	Auto-déclaré
CharXiv-R	86,7 %	4ᵉ / 42	llm-stats	Auto-déclaré
BrowseComp	86,3 %	3ᵉ / 51	llm-stats	Auto-déclaré
IMO-AnswerBench	86,0 %	6ᵉ / 18	llm-stats	Auto-déclaré
DeepSearchQA	83,0 %	4ᵉ / 6	llm-stats	Auto-déclaré
Claw-Eval	80,9 %	1ᵉ / 12	llm-stats	Auto-déclaré
WideSearch	80,8 %	1ᵉ / 8	llm-stats	Auto-déclaré
SWE-Bench Verified	80,2 %	11ᵉ / 100	llm-stats	Auto-déclaré
MMMU-Pro	80,1 %	10ᵉ / 60	llm-stats	Auto-déclaré
SWE-bench Multilingual	76,7 %	5ᵉ / 32	llm-stats	Auto-déclaré
OSWorld-Verified	73,1 %	9ᵉ / 17	llm-stats	Auto-déclaré
LiveBench	72,2 %	25ᵉ / 38	llm-stats	n.d.
BabyVision	68,5 %	3ᵉ / 7	llm-stats	Auto-déclaré
Terminal-Bench 2.0	66,7 %	14ᵉ / 48	llm-stats	Auto-déclaré
OJBench	60,6 %	1ᵉ / 9	llm-stats	Auto-déclaré
SWE-Bench Pro	58,6 %	8ᵉ / 34	llm-stats	Auto-déclaré
MCP-Mark	55,9 %	4ᵉ / 8	llm-stats	Auto-déclaré
SciCode	52,2 %	5ᵉ / 18	llm-stats	Auto-déclaré
Toolathlon	50,0 %	7ᵉ / 23	llm-stats	Auto-déclaré
Finance Agent v2	44,9 %	10ᵉ / 25	llm-stats	n.d.
GDPval-AA	40,1 %	16ᵉ / 33	llm-stats	n.d.
Humanity's Last Exam	36,4 %	34ᵉ / 86	llm-stats	Auto-déclaré
APEX-Agents	27,9 %	4ᵉ / 5	llm-stats	Auto-déclaré
FrontierSWE	27,0 %	11ᵉ / 13	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

DeepSeek V4 Pro44.3

▶ Kimi K2.642.8

Grok Build 0.1 061639.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

DeepSeek V4 Pro59.4

▶ Kimi K2.656.0

Grok Build 0.1 061651.5

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Image-to-Code	1522	7ᵉ
Arena Code	1513	13ᵉ
Arena Text	1461	33ᵉ
Arena Document	1451	13ᵉ
Arena Vision	1265	20ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Decart	0,66 $	3,41 $	0,144 $
deepinfra	0,75 $	3,5 $	n.d.
fireworks	0,95 $	4 $	n.d.
artificialanalysis	0,95 $	4 $	0,16 $
together	1,2 $	4,5 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 66 % en dessous de la moyenne des LLM similaires, et 7,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,51 $
Latence moyenne par benchmark — Benchable	36 min 08 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	China

Notre analyse

Forces. Kimi K2.6 affiche de très bons résultats sur les tâches générales évaluées par Benchable, avec des performances de premier plan en General Knowledge, Email Classification et Reasoning. Son score sur OTIS Mock AIME 2024-2025, un benchmark d’olympiades de mathématiques de niveau lycée, le place aussi dans le top 10, ce qui signale une forte capacité en raisonnement formel. Le modèle est solide en code, avec un bon classement dans Arena image-to-code et Arena code, tandis que son Agentic Index le place dans le haut du tableau des modèles évalués. Sa grande fenêtre de contexte renforce son intérêt pour l’analyse de documents longs, la synthèse multi-sources et les workflows nécessitant beaucoup de contexte.

Limites et points d'attention. Les résultats sont moins nets sur Ethics et Hallucinations, où Kimi K2.6 ne se situe pas parmi les meilleurs malgré des scores élevés en valeur absolue. Arena text est également moins favorable que les évaluations orientées code, ce qui suggère un positionnement plus convaincant pour les tâches techniques que pour la préférence générale en conversation. La licence est indiquée comme Modified MIT License, mais les poids ne sont pas ouverts, ce qui limite l’audit indépendant et certains usages d’hébergement autonome. Kimi K2.6 convient surtout aux usages à fort volume, aux tâches de raisonnement, de classification et de code, lorsque le coût par token est un critère central.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).