LongCat-Flash-Thinking-2601

LongCat-Flash-Thinking-2601 est le modèle de raisonnement agentique de Meituan, le géant chinois de la livraison, dans sa version de janvier 2026 (le suffixe 2601 désigne l'année 26, mois 01). C'est un Mixture-of-Experts à activation dynamique d'experts : 560 milliards de paramètres au…

LongCat-Flash-Thinking-2601 est le modèle de raisonnement agentique de Meituan, le géant chinois de la livraison, dans sa version de janvier 2026 (le suffixe 2601 désigne l'année 26, mois 01). C'est un Mixture-of-Experts à activation dynamique d'experts : 560 milliards de paramètres au total, mais seulement 27 environ activés par token, avec des experts « à calcul nul » hérités de LongCat-Flash. Il est texte seul et publié sous licence permissive MIT.

Son orientation très agentique (recherche outillée, appels d'outils) reflète les besoins opérationnels de Meituan.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeituan
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie14 janvier 2026
Multimodalnon
Paramètres560 milliards
Paramètres actifs27 milliards
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
AIME 202599,6 %8ᵉ / 108llm-statsAuto-déclaré
Tau2 Telecom99,3 %1ᵉ / 34llm-statsAuto-déclaré
Tau2 Retail88,6 %4ᵉ / 25llm-statsAuto-déclaré
LiveCodeBench82,8 %6ᵉ / 72llm-statsAuto-déclaré
GPQA80,5 %72ᵉ / 213llm-statsAuto-déclaré
IMO-AnswerBench78,6 %16ᵉ / 18llm-statsAuto-déclaré
Tau2 Airline76,5 %1ᵉ / 22llm-statsAuto-déclaré
SWE-Bench Verified70,0 %55ᵉ / 100llm-statsAuto-déclaré
BrowseComp-zh69,0 %4ᵉ / 13llm-statsAuto-déclaré
BrowseComp56,6 %31ᵉ / 51llm-statsAuto-déclaré
Humanity's Last Exam25,2 %43ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. Le tool-calling est son terrain fort, avec des scores au plus haut niveau open-source sur les bancs agentiques (Tau2). Son mode « Heavy Thinking » explore plusieurs trajectoires de raisonnement en parallèle puis les synthétise, gagnant quelques points sur les épreuves les plus dures, et le contexte est géré de façon hybride (résumé automatique) pour les tâches longues. À 27 milliards de paramètres actifs, il reste efficace, et la licence MIT le rend librement réutilisable.

Limites et points d'attention. Il est texte seul, et reste en retrait sur le génie logiciel autonome (SWE-Bench) et les tâches agentiques les plus longues. Ses 560 milliards de paramètres rendent l'auto-hébergement lourd, et aucun chiffre de compute, de coût ou de date de connaissance n'est communiqué. Plusieurs scores vitrine relèvent du mode Heavy Thinking, beaucoup plus gourmand en calcul : à comparer à budget égal. Il vise les agents et la recherche outillée open-source.


Sources des données : LLM-Stats (llm-stats.com).