Kimi K2.5

Kimi K2.5 est un LLM de Moonshot AI, publié le 27 janvier 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il se distingue par une très grande fenêtre de contexte de 262 144 tokens et par une architecture de 1000 milliards de paramètres, dont 32…

Kimi K2.5 est un LLM de Moonshot AI, publié le 27 janvier 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il se distingue par une très grande fenêtre de contexte de 262 144 tokens et par une architecture de 1000 milliards de paramètres, dont 32 milliards actifs.

Son positionnement combine performances de haut niveau et prix très agressif : la tarification annoncée se situe 81% sous la moyenne des LLM similaires et environ 12,9 fois sous celle des modèles frontière. L'entraînement déclaré atteint 5,8 × 10²⁴ FLOP, soit environ 1,6 million d'heures-GPU H100.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMoonshot AI
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie27 janvier 2026
Multimodaloui
Paramètres1000 milliards
Paramètres actifs32 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index38.131ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: OTIS Mock AIME 2024-202592,2 %18ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond87,6 %22ᵉ / 132epoch✅ Mesuré
Epoch: SWE-Bench verified73,8 %17ᵉ / 32epoch✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)54,6 %40ᵉ / 52pinchbench✅ Mesuré
Epoch: SimpleQA Verified33,9 %33ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private27,9 %21ᵉ / 69epoch✅ Mesuré
Epoch: Chess Puzzles12,0 %37ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private4,2 %26ᵉ / 55epoch✅ Mesuré
AIME 202596,1 %17ᵉ / 108llm-statsAuto-déclaré
HMMT 202595,4 %6ᵉ / 33llm-statsAuto-déclaré
InfoVQAtest92,6 %1ᵉ / 12llm-statsAuto-déclaré
OCRBench92,3 %1ᵉ / 22llm-statsAuto-déclaré
MathVista-Mini90,1 %1ᵉ / 23llm-statsAuto-déclaré
OmniDocBench 1.588,8 %9ᵉ / 13llm-statsAuto-déclaré
GPQA87,6 %28ᵉ / 213llm-statsAuto-déclaré
Video-MME87,4 %5ᵉ / 17llm-statsAuto-déclaré
MMLU-Pro87,1 %7ᵉ / 125llm-statsAuto-déclaré
VideoMMMU86,6 %3ᵉ / 26llm-statsAuto-déclaré
LiveCodeBench v685,0 %9ᵉ / 53llm-statsAuto-déclaré
MathVision84,2 %9ᵉ / 31llm-statsAuto-déclaré
IMO-AnswerBench81,8 %12ᵉ / 18llm-statsAuto-déclaré
MMVU80,4 %1ᵉ / 4llm-statsAuto-déclaré
LongVideoBench79,8 %3ᵉ / 4llm-statsAuto-déclaré
WideSearch79,0 %2ᵉ / 8llm-statsAuto-déclaré
MMMU-Pro78,5 %14ᵉ / 60llm-statsAuto-déclaré
CharXiv-R77,5 %21ᵉ / 42llm-statsAuto-déclaré
DeepSearchQA77,1 %5ᵉ / 6llm-statsAuto-déclaré
SWE-Bench Verified76,8 %25ᵉ / 100llm-statsAuto-déclaré
LVBench75,9 %4ᵉ / 23llm-statsAuto-déclaré
BrowseComp74,9 %19ᵉ / 51llm-statsAuto-déclaré
SWE-bench Multilingual73,0 %11ᵉ / 32llm-statsAuto-déclaré
SimpleVQA71,2 %5ᵉ / 13llm-statsAuto-déclaré
MotionBench70,4 %3ᵉ / 3llm-statsAuto-déclaré
AA-LCR70,0 %2ᵉ / 14llm-statsAuto-déclaré
LiveBench69,1 %32ᵉ / 38llm-statsn.d.
LongBench v261,0 %4ᵉ / 15llm-statsAuto-déclaré
Seal-057,4 %1ᵉ / 6llm-statsAuto-déclaré
Terminal-Bench 2.050,8 %34ᵉ / 48llm-statsAuto-déclaré
SWE-Bench Pro50,7 %32ᵉ / 34llm-statsAuto-déclaré
Humanity's Last Exam50,2 %16ᵉ / 86llm-statsAuto-déclaré
SciCode48,7 %7ᵉ / 18llm-statsAuto-déclaré
WorldVQA46,3 %4ᵉ / 4llm-statsAuto-déclaré
CyberGym41,3 %9ᵉ / 9llm-statsAuto-déclaré
FrontierSWE26,0 %12ᵉ / 13llm-statsn.d.
ZEROBench11,0 %4ᵉ / 8llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Grok Build 0.1 061639.8
▶ Kimi K2.538.1
Nemotron 3 Ultra 550B A…37.8

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
▶ Kimi K2.592 %
Muse Spark89 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DigitalOcean0,375 $2,025 $n.d.
artificialanalysis0,58 $3 $0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 81 % en dessous de la moyenne des LLM similaires, et 12,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)7,15 $
Durée d'exécution — PinchBench6 h 02 min
Indice valeur/coût — PinchBench29,62

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement5,8 × 10²⁴ FLOP
MatérielNVIDIA H800 SXM5
PaysChina

Notre analyse

Forces. Kimi K2.5 ressort surtout sur les tâches de raisonnement scientifique et mathématique. À sa sortie, il figurait dans le top 8% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats sont également solides sur OTIS Mock AIME, centré sur les olympiades de mathématiques de niveau lycée, et sur SWE-Bench verified, qui mesure la résolution de vrais bugs logiciels GitHub. La grande fenêtre de contexte renforce son intérêt pour l'analyse de longs documents, de bases de code ou de dossiers techniques volumineux. La licence MIT et les poids ouverts facilitent les déploiements commerciaux, tandis que le prix très économique le place dans une catégorie attractive pour des usages à fort volume.

Limites et points d'attention. L'Intelligence Index le situe dans un bon niveau général, mais pas parmi les tout premiers modèles du classement global. Les résultats sont plus faibles sur SimpleQA Verified, qui mesure les réponses factuelles vérifiables, et sur PinchBench agentique, où le modèle se place en bas de tableau. FrontierMath confirme aussi que les mathématiques de recherche restent un terrain difficile. Kimi K2.5 convient surtout aux organisations cherchant un LLM open-weights économique pour raisonnement, code et longs contextes, avec une vigilance particulière sur la vérification factuelle et les tâches agentiques complexes.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com).