Meituan

LongCat-Flash-Thinking-2601

LongCat-Flash-Thinking-2601 est le modèle de raisonnement agentique de Meituan, le géant chinois de la livraison, dans sa version de janvier 2026 (le suffixe 2601 désigne l'année 26, mois 01). C'est un Mixture-of-Experts à activation dynamique d'experts : 560 milliards de paramètres au total, mais seulement 27 environ activés par token, avec des experts « à calcul nul » hérités de LongCat-Flash. Il est texte seul et publié sous licence permissive MIT.

Son orientation très agentique (recherche outillée, appels d'outils) reflète les besoins opérationnels de Meituan.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meituan
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	14 janvier 2026
Multimodal	non
Paramètres	560 milliards
Paramètres actifs	27 milliards
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
AIME 2025	99,6 %	8ᵉ / 108	llm-stats	Auto-déclaré
Tau2 Telecom	99,3 %	1ᵉ / 34	llm-stats	Auto-déclaré
Tau2 Retail	88,6 %	4ᵉ / 25	llm-stats	Auto-déclaré
LiveCodeBench	82,8 %	6ᵉ / 72	llm-stats	Auto-déclaré
GPQA	80,5 %	72ᵉ / 213	llm-stats	Auto-déclaré
IMO-AnswerBench	78,6 %	16ᵉ / 18	llm-stats	Auto-déclaré
Tau2 Airline	76,5 %	1ᵉ / 22	llm-stats	Auto-déclaré
SWE-Bench Verified	70,0 %	55ᵉ / 100	llm-stats	Auto-déclaré
BrowseComp-zh	69,0 %	4ᵉ / 13	llm-stats	Auto-déclaré
BrowseComp	56,6 %	31ᵉ / 51	llm-stats	Auto-déclaré
Humanity's Last Exam	25,2 %	43ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. Le tool-calling est son terrain fort, avec des scores au plus haut niveau open-source sur les bancs agentiques (Tau2). Son mode « Heavy Thinking » explore plusieurs trajectoires de raisonnement en parallèle puis les synthétise, gagnant quelques points sur les épreuves les plus dures, et le contexte est géré de façon hybride (résumé automatique) pour les tâches longues. À 27 milliards de paramètres actifs, il reste efficace, et la licence MIT le rend librement réutilisable.

Limites et points d'attention. Il est texte seul, et reste en retrait sur le génie logiciel autonome (SWE-Bench) et les tâches agentiques les plus longues. Ses 560 milliards de paramètres rendent l'auto-hébergement lourd, et aucun chiffre de compute, de coût ou de date de connaissance n'est communiqué. Plusieurs scores vitrine relèvent du mode Heavy Thinking, beaucoup plus gourmand en calcul : à comparer à budget égal. Il vise les agents et la recherche outillée open-source.

Sources des données : LLM-Stats (llm-stats.com).

LongCat-Flash-Thinking-2601

Caractéristiques

Performances (benchmarks)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast