LongCat-Flash-Thinking
LongCat-Flash-Thinking est un LLM de Meituan publié le 22 septembre 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand volume de paramètres et une fenêtre de contexte longue, deux éléments qui le placent dans la…
LongCat-Flash-Thinking est un LLM de Meituan publié le 22 septembre 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand volume de paramètres et une fenêtre de contexte longue, deux éléments qui le placent dans la catégorie des modèles ouverts de grande taille.
À sa sortie, LongCat-Flash-Thinking se situait dans le top 12% des 130 LLM de sa génération sur GPQA, un repère utile pour évaluer son niveau relatif sur un benchmark exigeant. La fiche repose sur une source de données concordante, ce qui invite à distinguer les points établis des capacités non documentées.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meituan |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 22 septembre 2025 |
| Multimodal | non |
| Paramètres | 560 milliards |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| MATH-500 | 99,2 % | 1ᵉ / 31 | llm-stats | Auto-déclaré |
| ZebraLogic | 95,5 % | 2ᵉ / 7 | llm-stats | Auto-déclaré |
| AIME 2024 | 93,3 % | 3ᵉ / 52 | llm-stats | Auto-déclaré |
| AIME 2025 | 90,6 % | 42ᵉ / 108 | llm-stats | Auto-déclaré |
| MMLU-Redux | 89,3 % | 26ᵉ / 48 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 83,1 % | 19ᵉ / 34 | llm-stats | Auto-déclaré |
| MMLU-Pro | 82,6 % | 33ᵉ / 125 | llm-stats | Auto-déclaré |
| GPQA | 81,5 % | 64ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 79,4 % | 10ᵉ / 72 | llm-stats | Auto-déclaré |
| BFCL-v3 | 74,4 % | 3ᵉ / 19 | llm-stats | Auto-déclaré |
| Tau2 Retail | 71,5 % | 16ᵉ / 25 | llm-stats | Auto-déclaré |
| Tau2 Airline | 67,5 % | 3ᵉ / 22 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 59,4 % | 76ᵉ / 100 | llm-stats | Auto-déclaré |
| ARC-AGI | 50,3 % | 6ᵉ / 7 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Notre analyse
Forces. LongCat-Flash-Thinking se distingue d’abord par son format open-weights sous licence MIT, qui autorise les usages commerciaux et donne une marge d’intégration plus large qu’un modèle fermé. Sa fenêtre de contexte de 128 000 tokens le rend adapté aux traitements de documents longs, aux corpus volumineux et aux tâches où la continuité du contexte compte. Son échelle de 560 milliards de paramètres en fait un modèle massif dans sa génération. Sur GPQA, il figurait à sa sortie dans le haut du panier, avec un classement dans le top 12% des LLM publiés sur une période comparable.
Limites et points d'attention. Les données disponibles ne décrivent qu’un seul signal de performance, GPQA, ce qui ne permet pas de conclure sur le code, les agents, les mathématiques avancées ou les usages conversationnels. La couverture repose sur 1 source concordante, un niveau d’appui limité pour une évaluation complète. Le très grand nombre de paramètres peut aussi compliquer l’exploitation pratique par rapport à des modèles plus compacts. Ce profil convient surtout aux équipes cherchant un LLM ouvert, commercialement exploitable, avec long contexte et bon positionnement initial sur GPQA.
Sources des données : LLM-Stats (llm-stats.com).