LongCat-Flash-Chat
LongCat-Flash-Chat est un LLM de Meituan publié le 29 août 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand format, 560 milliards de paramètres, et une fenêtre de contexte longue de 131 072 tokens.
LongCat-Flash-Chat est un LLM de Meituan publié le 29 août 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand format, 560 milliards de paramètres, et une fenêtre de contexte longue de 131 072 tokens.
Le modèle vise les usages conversationnels et les traitements de textes volumineux, avec des connaissances arrêtées au 31 mars 2025. Les données disponibles reposent sur 3 sources concordantes, ce qui donne une base cohérente pour situer ses performances à sa sortie.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meituan |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 29 août 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | non |
| Paramètres | 560 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| MATH-500 | 96,4 % | 12ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU | 89,7 % | 11ᵉ / 98 | llm-stats | Auto-déclaré |
| IFEval | 89,6 % | 20ᵉ / 65 | llm-stats | Auto-déclaré |
| ZebraLogic | 89,3 % | 4ᵉ / 7 | llm-stats | Auto-déclaré |
| HumanEval | 88,4 % | 18ᵉ / 65 | llm-stats | Auto-déclaré |
| CMMLU | 84,3 % | 3ᵉ / 6 | llm-stats | Auto-déclaré |
| MMLU-Pro | 82,7 % | 32ᵉ / 125 | llm-stats | Auto-déclaré |
| DROP | 79,1 % | 15ᵉ / 29 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 73,7 % | 23ᵉ / 34 | llm-stats | Auto-déclaré |
| GPQA | 73,2 % | 101ᵉ / 213 | llm-stats | Auto-déclaré |
| Tau2 Retail | 71,3 % | 18ᵉ / 25 | llm-stats | Auto-déclaré |
| AIME 2025 | 61,3 % | 91ᵉ / 108 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 60,4 % | 74ᵉ / 100 | llm-stats | Auto-déclaré |
| Tau2 Airline | 58,0 % | 12ᵉ / 22 | llm-stats | Auto-déclaré |
| LiveCodeBench | 48,0 % | 47ᵉ / 72 | llm-stats | Auto-déclaré |
| Terminal-Bench | 39,5 % | 9ᵉ / 25 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1401 | 119ᵉ |
Notre analyse
Forces. LongCat-Flash-Chat se distingue d’abord par sa fenêtre de contexte de 131 072 tokens, adaptée à l’analyse de documents longs, de fils de discussion étendus ou de corpus internes volumineux. Sa licence MIT et ses poids ouverts en font un modèle exploitable dans des contextes commerciaux sans dépendre uniquement d’une API propriétaire. À sa sortie, il figurait dans le top 31% des LLM de sa génération sur GPQA, parmi 132 modèles sortis dans les quelque 18 mois précédents, ce qui le situe dans le haut intermédiaire de son époque sur ce benchmark. Son évaluation Arena text le place dans un niveau compétitif, sans le rapprocher du sommet du classement.
Limites et points d'attention. LongCat-Flash-Chat reste un très grand modèle, avec 560 milliards de paramètres, ce qui implique des contraintes d’hébergement et d’inférence nettement plus fortes qu’un modèle compact. Ses connaissances s’arrêtent au 31 mars 2025, avec une couverture incomplète des événements, normes et produits apparus ensuite. Son rang Arena text indique qu’il ne fait pas partie des modèles haut de gamme les mieux classés en conversation générale. Il convient surtout aux organisations qui privilégient des poids ouverts, une licence permissive et un très long contexte, plutôt qu’une performance de pointe absolue.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai).