Moonshot AI

Kimi-k1.5

Kimi k1.5 est le modèle de raisonnement multimodal de Moonshot AI, la start-up pékinoise, dévoilé le 20 janvier 2025, le jour même que DeepSeek-R1, d'où les comparaisons systématiques entre les deux. Entraîné par apprentissage par renforcement avec de longues chaînes de pensée, il propose deux modes : un raisonnement long détaillé, et un mode court dérivé par une technique de distillation « long2short ». Il accepte texte et images, avec une fenêtre de 128 000 tokens.

Contrairement à une idée répandue, ce n'est pas un modèle ouvert : seul le rapport technique est public, les poids restent propriétaires.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Moonshot AI
Licence	Proprietary (poids non ouverts)
Date de sortie	20 janvier 2025
Multimodal	oui

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
MATH-500	96,2 %	13ᵉ / 31	llm-stats	Auto-déclaré
CLUEWSC	91,4 %	1ᵉ / 3	llm-stats	Auto-déclaré
C-Eval	88,3 %	10ᵉ / 18	llm-stats	Auto-déclaré
MMLU	87,4 %	23ᵉ / 98	llm-stats	Auto-déclaré
IFEval	87,2 %	34ᵉ / 65	llm-stats	Auto-déclaré
AIME 2024	77,5 %	31ᵉ / 52	llm-stats	Auto-déclaré
MathVista	74,9 %	7ᵉ / 38	llm-stats	Auto-déclaré
MMMU	70,0 %	30ᵉ / 61	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	China

Notre analyse

Forces. C'est l'un des tout premiers modèles de raisonnement par renforcement de niveau o1 développés hors d'OpenAI, et l'un des premiers à être à la fois raisonneur et multimodal là où o1 et DeepSeek-R1 étaient textuels. En mode long, il rivalise avec o1 en mathématiques de compétition (AIME, MATH-500) ; en mode court, il dépasse nettement les modèles non-raisonneurs de l'époque. Sa recette d'apprentissage par renforcement, volontairement simple (sans Monte Carlo Tree Search ni modèle de valeur), a diffusé des idées influentes.

Limites et points d'attention. Ses poids ne sont pas publiés, ce qui le rend non reproductible, contrairement à DeepSeek-R1 sorti le même jour et qui l'a largement éclipsé médiatiquement. Sa taille et son compute ne sont pas communiqués, et ses benchmarks sont majoritairement auto-rapportés. Sa disponibilité initiale était orientée Chine. Son intérêt est aujourd'hui surtout historique, comme jalon du rattrapage chinois sur le raisonnement.

Sources des données : LLM-Stats (llm-stats.com) · Epoch AI (epoch.ai), CC-BY-4.0.

Kimi-k1.5

Caractéristiques

Performances (benchmarks)

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast