Meituan

LongCat-Flash-Chat

LongCat-Flash-Chat est un LLM de Meituan publié le 29 août 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand format, 560 milliards de paramètres, et une fenêtre de contexte longue de 131 072 tokens.

Le modèle vise les usages conversationnels et les traitements de textes volumineux, avec des connaissances arrêtées au 31 mars 2025. Les données disponibles reposent sur 3 sources concordantes, ce qui donne une base cohérente pour situer ses performances à sa sortie.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meituan
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	29 août 2025
Connaissances jusqu'à	2025-03-31
Multimodal	non
Paramètres	560 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
MATH-500	96,4 %	12ᵉ / 31	llm-stats	Auto-déclaré
MMLU	89,7 %	11ᵉ / 98	llm-stats	Auto-déclaré
IFEval	89,6 %	20ᵉ / 65	llm-stats	Auto-déclaré
ZebraLogic	89,3 %	4ᵉ / 7	llm-stats	Auto-déclaré
HumanEval	88,4 %	18ᵉ / 65	llm-stats	Auto-déclaré
CMMLU	84,3 %	3ᵉ / 6	llm-stats	Auto-déclaré
MMLU-Pro	82,7 %	32ᵉ / 125	llm-stats	Auto-déclaré
DROP	79,1 %	15ᵉ / 29	llm-stats	Auto-déclaré
Tau2 Telecom	73,7 %	23ᵉ / 34	llm-stats	Auto-déclaré
GPQA	73,2 %	101ᵉ / 213	llm-stats	Auto-déclaré
Tau2 Retail	71,3 %	18ᵉ / 25	llm-stats	Auto-déclaré
AIME 2025	61,3 %	91ᵉ / 108	llm-stats	Auto-déclaré
SWE-Bench Verified	60,4 %	74ᵉ / 100	llm-stats	Auto-déclaré
Tau2 Airline	58,0 %	12ᵉ / 22	llm-stats	Auto-déclaré
LiveCodeBench	48,0 %	47ᵉ / 72	llm-stats	Auto-déclaré
Terminal-Bench	39,5 %	9ᵉ / 25	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1401	119ᵉ

Notre analyse

Forces. LongCat-Flash-Chat se distingue d’abord par sa fenêtre de contexte de 131 072 tokens, adaptée à l’analyse de documents longs, de fils de discussion étendus ou de corpus internes volumineux. Sa licence MIT et ses poids ouverts en font un modèle exploitable dans des contextes commerciaux sans dépendre uniquement d’une API propriétaire. À sa sortie, il figurait dans le top 31% des LLM de sa génération sur GPQA, parmi 132 modèles sortis dans les quelque 18 mois précédents, ce qui le situe dans le haut intermédiaire de son époque sur ce benchmark. Son évaluation Arena text le place dans un niveau compétitif, sans le rapprocher du sommet du classement.

Limites et points d'attention. LongCat-Flash-Chat reste un très grand modèle, avec 560 milliards de paramètres, ce qui implique des contraintes d’hébergement et d’inférence nettement plus fortes qu’un modèle compact. Ses connaissances s’arrêtent au 31 mars 2025, avec une couverture incomplète des événements, normes et produits apparus ensuite. Son rang Arena text indique qu’il ne fait pas partie des modèles haut de gamme les mieux classés en conversation générale. Il convient surtout aux organisations qui privilégient des poids ouverts, une licence permissive et un très long contexte, plutôt qu’une performance de pointe absolue.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai).

LongCat-Flash-Chat

Caractéristiques

Performances (benchmarks)

Classements Arena (Elo)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast