Kimi-k1.5
Kimi k1.5 est le modèle de raisonnement multimodal de Moonshot AI, la start-up pékinoise, dévoilé le 20 janvier 2025, le jour même que DeepSeek-R1, d'où les comparaisons systématiques entre les deux. Entraîné par apprentissage par renforcement avec de longues chaînes de pensée, il…
Kimi k1.5 est le modèle de raisonnement multimodal de Moonshot AI, la start-up pékinoise, dévoilé le 20 janvier 2025, le jour même que DeepSeek-R1, d'où les comparaisons systématiques entre les deux. Entraîné par apprentissage par renforcement avec de longues chaînes de pensée, il propose deux modes : un raisonnement long détaillé, et un mode court dérivé par une technique de distillation « long2short ». Il accepte texte et images, avec une fenêtre de 128 000 tokens.
Contrairement à une idée répandue, ce n'est pas un modèle ouvert : seul le rapport technique est public, les poids restent propriétaires.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Moonshot AI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 20 janvier 2025 |
| Multimodal | oui |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| MATH-500 | 96,2 % | 13ᵉ / 31 | llm-stats | Auto-déclaré |
| CLUEWSC | 91,4 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| C-Eval | 88,3 % | 10ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU | 87,4 % | 23ᵉ / 98 | llm-stats | Auto-déclaré |
| IFEval | 87,2 % | 34ᵉ / 65 | llm-stats | Auto-déclaré |
| AIME 2024 | 77,5 % | 31ᵉ / 52 | llm-stats | Auto-déclaré |
| MathVista | 74,9 % | 7ᵉ / 38 | llm-stats | Auto-déclaré |
| MMMU | 70,0 % | 30ᵉ / 61 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | China |
Notre analyse
Forces. C'est l'un des tout premiers modèles de raisonnement par renforcement de niveau o1 développés hors d'OpenAI, et l'un des premiers à être à la fois raisonneur et multimodal là où o1 et DeepSeek-R1 étaient textuels. En mode long, il rivalise avec o1 en mathématiques de compétition (AIME, MATH-500) ; en mode court, il dépasse nettement les modèles non-raisonneurs de l'époque. Sa recette d'apprentissage par renforcement, volontairement simple (sans Monte Carlo Tree Search ni modèle de valeur), a diffusé des idées influentes.
Limites et points d'attention. Ses poids ne sont pas publiés, ce qui le rend non reproductible, contrairement à DeepSeek-R1 sorti le même jour et qui l'a largement éclipsé médiatiquement. Sa taille et son compute ne sont pas communiqués, et ses benchmarks sont majoritairement auto-rapportés. Sa disponibilité initiale était orientée Chine. Son intérêt est aujourd'hui surtout historique, comme jalon du rattrapage chinois sur le raisonnement.
Sources des données : LLM-Stats (llm-stats.com) · Epoch AI (epoch.ai), CC-BY-4.0.