LongCat-Flash-Chat

LongCat-Flash-Chat est un LLM de Meituan publié le 29 août 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand format, 560 milliards de paramètres, et une fenêtre de contexte longue de 131 072 tokens.

LongCat-Flash-Chat est un LLM de Meituan publié le 29 août 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand format, 560 milliards de paramètres, et une fenêtre de contexte longue de 131 072 tokens.

Le modèle vise les usages conversationnels et les traitements de textes volumineux, avec des connaissances arrêtées au 31 mars 2025. Les données disponibles reposent sur 3 sources concordantes, ce qui donne une base cohérente pour situer ses performances à sa sortie.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeituan
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie29 août 2025
Connaissances jusqu'à2025-03-31
Multimodalnon
Paramètres560 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
MATH-50096,4 %12ᵉ / 31llm-statsAuto-déclaré
MMLU89,7 %11ᵉ / 98llm-statsAuto-déclaré
IFEval89,6 %20ᵉ / 65llm-statsAuto-déclaré
ZebraLogic89,3 %4ᵉ / 7llm-statsAuto-déclaré
HumanEval88,4 %18ᵉ / 65llm-statsAuto-déclaré
CMMLU84,3 %3ᵉ / 6llm-statsAuto-déclaré
MMLU-Pro82,7 %32ᵉ / 125llm-statsAuto-déclaré
DROP79,1 %15ᵉ / 29llm-statsAuto-déclaré
Tau2 Telecom73,7 %23ᵉ / 34llm-statsAuto-déclaré
GPQA73,2 %101ᵉ / 213llm-statsAuto-déclaré
Tau2 Retail71,3 %18ᵉ / 25llm-statsAuto-déclaré
AIME 202561,3 %91ᵉ / 108llm-statsAuto-déclaré
SWE-Bench Verified60,4 %74ᵉ / 100llm-statsAuto-déclaré
Tau2 Airline58,0 %12ᵉ / 22llm-statsAuto-déclaré
LiveCodeBench48,0 %47ᵉ / 72llm-statsAuto-déclaré
Terminal-Bench39,5 %9ᵉ / 25llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Classements Arena (Elo)

CatégorieEloRang
Arena Text1401119ᵉ

Notre analyse

Forces. LongCat-Flash-Chat se distingue d’abord par sa fenêtre de contexte de 131 072 tokens, adaptée à l’analyse de documents longs, de fils de discussion étendus ou de corpus internes volumineux. Sa licence MIT et ses poids ouverts en font un modèle exploitable dans des contextes commerciaux sans dépendre uniquement d’une API propriétaire. À sa sortie, il figurait dans le top 31% des LLM de sa génération sur GPQA, parmi 132 modèles sortis dans les quelque 18 mois précédents, ce qui le situe dans le haut intermédiaire de son époque sur ce benchmark. Son évaluation Arena text le place dans un niveau compétitif, sans le rapprocher du sommet du classement.

Limites et points d'attention. LongCat-Flash-Chat reste un très grand modèle, avec 560 milliards de paramètres, ce qui implique des contraintes d’hébergement et d’inférence nettement plus fortes qu’un modèle compact. Ses connaissances s’arrêtent au 31 mars 2025, avec une couverture incomplète des événements, normes et produits apparus ensuite. Son rang Arena text indique qu’il ne fait pas partie des modèles haut de gamme les mieux classés en conversation générale. Il convient surtout aux organisations qui privilégient des poids ouverts, une licence permissive et un très long contexte, plutôt qu’une performance de pointe absolue.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai).