Moonshot AI

Kimi K2.5

Kimi K2.5 est un LLM de Moonshot AI, publié le 27 janvier 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il se distingue par une très grande fenêtre de contexte de 262 144 tokens et par une architecture de 1000 milliards de paramètres, dont 32…

Son positionnement combine performances de haut niveau et prix très agressif : la tarification annoncée se situe 81% sous la moyenne des LLM similaires et environ 12,9 fois sous celle des modèles frontière. L'entraînement déclaré atteint 5,8 × 10²⁴ FLOP, soit environ 1,6 million d'heures-GPU H100.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Moonshot AI
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	27 janvier 2026
Multimodal	oui
Paramètres	1000 milliards
Paramètres actifs	32 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	38.1	31ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: OTIS Mock AIME 2024-2025	92,2 %	18ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	87,6 %	22ᵉ / 132	epoch	✅ Mesuré
Epoch: SWE-Bench verified	73,8 %	17ᵉ / 32	epoch	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	54,6 %	40ᵉ / 52	pinchbench	✅ Mesuré
Epoch: SimpleQA Verified	33,9 %	33ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	27,9 %	21ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	12,0 %	37ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	4,2 %	26ᵉ / 55	epoch	✅ Mesuré
AIME 2025	96,1 %	17ᵉ / 108	llm-stats	Auto-déclaré
HMMT 2025	95,4 %	6ᵉ / 33	llm-stats	Auto-déclaré
InfoVQAtest	92,6 %	1ᵉ / 12	llm-stats	Auto-déclaré
OCRBench	92,3 %	1ᵉ / 22	llm-stats	Auto-déclaré
MathVista-Mini	90,1 %	1ᵉ / 23	llm-stats	Auto-déclaré
OmniDocBench 1.5	88,8 %	9ᵉ / 13	llm-stats	Auto-déclaré
GPQA	87,6 %	28ᵉ / 213	llm-stats	Auto-déclaré
Video-MME	87,4 %	5ᵉ / 17	llm-stats	Auto-déclaré
MMLU-Pro	87,1 %	7ᵉ / 125	llm-stats	Auto-déclaré
VideoMMMU	86,6 %	3ᵉ / 26	llm-stats	Auto-déclaré
LiveCodeBench v6	85,0 %	9ᵉ / 53	llm-stats	Auto-déclaré
MathVision	84,2 %	9ᵉ / 31	llm-stats	Auto-déclaré
IMO-AnswerBench	81,8 %	12ᵉ / 18	llm-stats	Auto-déclaré
MMVU	80,4 %	1ᵉ / 4	llm-stats	Auto-déclaré
LongVideoBench	79,8 %	3ᵉ / 4	llm-stats	Auto-déclaré
WideSearch	79,0 %	2ᵉ / 8	llm-stats	Auto-déclaré
MMMU-Pro	78,5 %	14ᵉ / 60	llm-stats	Auto-déclaré
CharXiv-R	77,5 %	21ᵉ / 42	llm-stats	Auto-déclaré
DeepSearchQA	77,1 %	5ᵉ / 6	llm-stats	Auto-déclaré
SWE-Bench Verified	76,8 %	25ᵉ / 100	llm-stats	Auto-déclaré
LVBench	75,9 %	4ᵉ / 23	llm-stats	Auto-déclaré
BrowseComp	74,9 %	19ᵉ / 51	llm-stats	Auto-déclaré
SWE-bench Multilingual	73,0 %	11ᵉ / 32	llm-stats	Auto-déclaré
SimpleVQA	71,2 %	5ᵉ / 13	llm-stats	Auto-déclaré
MotionBench	70,4 %	3ᵉ / 3	llm-stats	Auto-déclaré
AA-LCR	70,0 %	2ᵉ / 14	llm-stats	Auto-déclaré
LiveBench	69,1 %	32ᵉ / 38	llm-stats	n.d.
LongBench v2	61,0 %	4ᵉ / 15	llm-stats	Auto-déclaré
Seal-0	57,4 %	1ᵉ / 6	llm-stats	Auto-déclaré
Terminal-Bench 2.0	50,8 %	34ᵉ / 48	llm-stats	Auto-déclaré
SWE-Bench Pro	50,7 %	32ᵉ / 34	llm-stats	Auto-déclaré
Humanity's Last Exam	50,2 %	16ᵉ / 86	llm-stats	Auto-déclaré
SciCode	48,7 %	7ᵉ / 18	llm-stats	Auto-déclaré
WorldVQA	46,3 %	4ᵉ / 4	llm-stats	Auto-déclaré
CyberGym	41,3 %	9ᵉ / 9	llm-stats	Auto-déclaré
FrontierSWE	26,0 %	12ᵉ / 13	llm-stats	n.d.
ZEROBench	11,0 %	4ᵉ / 8	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Grok Build 0.1 061639.8

▶ Kimi K2.538.1

Nemotron 3 Ultra 550B A…37.8

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Grok 4.3 Beta93 %

▶ Kimi K2.592 %

Muse Spark89 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DigitalOcean	0,375 $	2,025 $	n.d.
artificialanalysis	0,58 $	3 $	0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 81 % en dessous de la moyenne des LLM similaires, et 12,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	7,15 $
Durée d'exécution — PinchBench	6 h 02 min
Indice valeur/coût — PinchBench	29,62

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	5,8 × 10²⁴ FLOP
Matériel	NVIDIA H800 SXM5
Pays	China

Notre analyse

Forces. Kimi K2.5 ressort surtout sur les tâches de raisonnement scientifique et mathématique. À sa sortie, il figurait dans le top 8% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats sont également solides sur OTIS Mock AIME, centré sur les olympiades de mathématiques de niveau lycée, et sur SWE-Bench verified, qui mesure la résolution de vrais bugs logiciels GitHub. La grande fenêtre de contexte renforce son intérêt pour l'analyse de longs documents, de bases de code ou de dossiers techniques volumineux. La licence MIT et les poids ouverts facilitent les déploiements commerciaux, tandis que le prix très économique le place dans une catégorie attractive pour des usages à fort volume.

Limites et points d'attention. L'Intelligence Index le situe dans un bon niveau général, mais pas parmi les tout premiers modèles du classement global. Les résultats sont plus faibles sur SimpleQA Verified, qui mesure les réponses factuelles vérifiables, et sur PinchBench agentique, où le modèle se place en bas de tableau. FrontierMath confirme aussi que les mathématiques de recherche restent un terrain difficile. Kimi K2.5 convient surtout aux organisations cherchant un LLM open-weights économique pour raisonnement, code et longs contextes, avec une vigilance particulière sur la vérification factuelle et les tâches agentiques complexes.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com).

Kimi K2.5

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast