Kimi K2.5
Kimi K2.5 est un LLM de Moonshot AI, publié le 27 janvier 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il se distingue par une très grande fenêtre de contexte de 262 144 tokens et par une architecture de 1000 milliards de paramètres, dont 32…
Kimi K2.5 est un LLM de Moonshot AI, publié le 27 janvier 2026 sous licence MIT avec poids ouverts et usage commercial autorisé. Originaire de Chine, il se distingue par une très grande fenêtre de contexte de 262 144 tokens et par une architecture de 1000 milliards de paramètres, dont 32 milliards actifs.
Son positionnement combine performances de haut niveau et prix très agressif : la tarification annoncée se situe 81% sous la moyenne des LLM similaires et environ 12,9 fois sous celle des modèles frontière. L'entraînement déclaré atteint 5,8 × 10²⁴ FLOP, soit environ 1,6 million d'heures-GPU H100.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Moonshot AI |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 27 janvier 2026 |
| Multimodal | oui |
| Paramètres | 1000 milliards |
| Paramètres actifs | 32 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 38.1 | 31ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: OTIS Mock AIME 2024-2025 | 92,2 % | 18ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 87,6 % | 22ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: SWE-Bench verified | 73,8 % | 17ᵉ / 32 | epoch | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 54,6 % | 40ᵉ / 52 | pinchbench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 33,9 % | 33ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 27,9 % | 21ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 12,0 % | 37ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 4,2 % | 26ᵉ / 55 | epoch | ✅ Mesuré |
| AIME 2025 | 96,1 % | 17ᵉ / 108 | llm-stats | Auto-déclaré |
| HMMT 2025 | 95,4 % | 6ᵉ / 33 | llm-stats | Auto-déclaré |
| InfoVQAtest | 92,6 % | 1ᵉ / 12 | llm-stats | Auto-déclaré |
| OCRBench | 92,3 % | 1ᵉ / 22 | llm-stats | Auto-déclaré |
| MathVista-Mini | 90,1 % | 1ᵉ / 23 | llm-stats | Auto-déclaré |
| OmniDocBench 1.5 | 88,8 % | 9ᵉ / 13 | llm-stats | Auto-déclaré |
| GPQA | 87,6 % | 28ᵉ / 213 | llm-stats | Auto-déclaré |
| Video-MME | 87,4 % | 5ᵉ / 17 | llm-stats | Auto-déclaré |
| MMLU-Pro | 87,1 % | 7ᵉ / 125 | llm-stats | Auto-déclaré |
| VideoMMMU | 86,6 % | 3ᵉ / 26 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 85,0 % | 9ᵉ / 53 | llm-stats | Auto-déclaré |
| MathVision | 84,2 % | 9ᵉ / 31 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 81,8 % | 12ᵉ / 18 | llm-stats | Auto-déclaré |
| MMVU | 80,4 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| LongVideoBench | 79,8 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| WideSearch | 79,0 % | 2ᵉ / 8 | llm-stats | Auto-déclaré |
| MMMU-Pro | 78,5 % | 14ᵉ / 60 | llm-stats | Auto-déclaré |
| CharXiv-R | 77,5 % | 21ᵉ / 42 | llm-stats | Auto-déclaré |
| DeepSearchQA | 77,1 % | 5ᵉ / 6 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 76,8 % | 25ᵉ / 100 | llm-stats | Auto-déclaré |
| LVBench | 75,9 % | 4ᵉ / 23 | llm-stats | Auto-déclaré |
| BrowseComp | 74,9 % | 19ᵉ / 51 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 73,0 % | 11ᵉ / 32 | llm-stats | Auto-déclaré |
| SimpleVQA | 71,2 % | 5ᵉ / 13 | llm-stats | Auto-déclaré |
| MotionBench | 70,4 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| AA-LCR | 70,0 % | 2ᵉ / 14 | llm-stats | Auto-déclaré |
| LiveBench | 69,1 % | 32ᵉ / 38 | llm-stats | n.d. |
| LongBench v2 | 61,0 % | 4ᵉ / 15 | llm-stats | Auto-déclaré |
| Seal-0 | 57,4 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 50,8 % | 34ᵉ / 48 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 50,7 % | 32ᵉ / 34 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 50,2 % | 16ᵉ / 86 | llm-stats | Auto-déclaré |
| SciCode | 48,7 % | 7ᵉ / 18 | llm-stats | Auto-déclaré |
| WorldVQA | 46,3 % | 4ᵉ / 4 | llm-stats | Auto-déclaré |
| CyberGym | 41,3 % | 9ᵉ / 9 | llm-stats | Auto-déclaré |
| FrontierSWE | 26,0 % | 12ᵉ / 13 | llm-stats | n.d. |
| ZEROBench | 11,0 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Epoch: OTIS Mock AIME 2024-2025
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DigitalOcean | 0,375 $ | 2,025 $ | n.d. |
| artificialanalysis | 0,58 $ | 3 $ | 0,2 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 81 % en dessous de la moyenne des LLM similaires, et 12,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 7,15 $ |
| Durée d'exécution — PinchBench | 6 h 02 min |
| Indice valeur/coût — PinchBench | 29,62 |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 5,8 × 10²⁴ FLOP |
| Matériel | NVIDIA H800 SXM5 |
| Pays | China |
Notre analyse
Forces. Kimi K2.5 ressort surtout sur les tâches de raisonnement scientifique et mathématique. À sa sortie, il figurait dans le top 8% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Ses résultats sont également solides sur OTIS Mock AIME, centré sur les olympiades de mathématiques de niveau lycée, et sur SWE-Bench verified, qui mesure la résolution de vrais bugs logiciels GitHub. La grande fenêtre de contexte renforce son intérêt pour l'analyse de longs documents, de bases de code ou de dossiers techniques volumineux. La licence MIT et les poids ouverts facilitent les déploiements commerciaux, tandis que le prix très économique le place dans une catégorie attractive pour des usages à fort volume.
Limites et points d'attention. L'Intelligence Index le situe dans un bon niveau général, mais pas parmi les tout premiers modèles du classement global. Les résultats sont plus faibles sur SimpleQA Verified, qui mesure les réponses factuelles vérifiables, et sur PinchBench agentique, où le modèle se place en bas de tableau. FrontierMath confirme aussi que les mathématiques de recherche restent un terrain difficile. Kimi K2.5 convient surtout aux organisations cherchant un LLM open-weights économique pour raisonnement, code et longs contextes, avec une vigilance particulière sur la vérification factuelle et les tâches agentiques complexes.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com).