LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 est le modèle de raisonnement agentique de Meituan, le géant chinois de la livraison, dans sa version de janvier 2026 (le suffixe 2601 désigne l'année 26, mois 01). C'est un Mixture-of-Experts à activation dynamique d'experts : 560 milliards de paramètres au…
LongCat-Flash-Thinking-2601 est le modèle de raisonnement agentique de Meituan, le géant chinois de la livraison, dans sa version de janvier 2026 (le suffixe 2601 désigne l'année 26, mois 01). C'est un Mixture-of-Experts à activation dynamique d'experts : 560 milliards de paramètres au total, mais seulement 27 environ activés par token, avec des experts « à calcul nul » hérités de LongCat-Flash. Il est texte seul et publié sous licence permissive MIT.
Son orientation très agentique (recherche outillée, appels d'outils) reflète les besoins opérationnels de Meituan.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meituan |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 14 janvier 2026 |
| Multimodal | non |
| Paramètres | 560 milliards |
| Paramètres actifs | 27 milliards |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| AIME 2025 | 99,6 % | 8ᵉ / 108 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 99,3 % | 1ᵉ / 34 | llm-stats | Auto-déclaré |
| Tau2 Retail | 88,6 % | 4ᵉ / 25 | llm-stats | Auto-déclaré |
| LiveCodeBench | 82,8 % | 6ᵉ / 72 | llm-stats | Auto-déclaré |
| GPQA | 80,5 % | 72ᵉ / 213 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 78,6 % | 16ᵉ / 18 | llm-stats | Auto-déclaré |
| Tau2 Airline | 76,5 % | 1ᵉ / 22 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 70,0 % | 55ᵉ / 100 | llm-stats | Auto-déclaré |
| BrowseComp-zh | 69,0 % | 4ᵉ / 13 | llm-stats | Auto-déclaré |
| BrowseComp | 56,6 % | 31ᵉ / 51 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 25,2 % | 43ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Notre analyse
Forces. Le tool-calling est son terrain fort, avec des scores au plus haut niveau open-source sur les bancs agentiques (Tau2). Son mode « Heavy Thinking » explore plusieurs trajectoires de raisonnement en parallèle puis les synthétise, gagnant quelques points sur les épreuves les plus dures, et le contexte est géré de façon hybride (résumé automatique) pour les tâches longues. À 27 milliards de paramètres actifs, il reste efficace, et la licence MIT le rend librement réutilisable.
Limites et points d'attention. Il est texte seul, et reste en retrait sur le génie logiciel autonome (SWE-Bench) et les tâches agentiques les plus longues. Ses 560 milliards de paramètres rendent l'auto-hébergement lourd, et aucun chiffre de compute, de coût ou de date de connaissance n'est communiqué. Plusieurs scores vitrine relèvent du mode Heavy Thinking, beaucoup plus gourmand en calcul : à comparer à budget égal. Il vise les agents et la recherche outillée open-source.
Sources des données : LLM-Stats (llm-stats.com).