LongCat-Flash-Thinking

LongCat-Flash-Thinking est un LLM de Meituan publié le 22 septembre 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand volume de paramètres et une fenêtre de contexte longue, deux éléments qui le placent dans la…

LongCat-Flash-Thinking est un LLM de Meituan publié le 22 septembre 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand volume de paramètres et une fenêtre de contexte longue, deux éléments qui le placent dans la catégorie des modèles ouverts de grande taille.

À sa sortie, LongCat-Flash-Thinking se situait dans le top 12% des 130 LLM de sa génération sur GPQA, un repère utile pour évaluer son niveau relatif sur un benchmark exigeant. La fiche repose sur une source de données concordante, ce qui invite à distinguer les points établis des capacités non documentées.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeituan
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie22 septembre 2025
Multimodalnon
Paramètres560 milliards
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
MATH-50099,2 %1ᵉ / 31llm-statsAuto-déclaré
ZebraLogic95,5 %2ᵉ / 7llm-statsAuto-déclaré
AIME 202493,3 %3ᵉ / 52llm-statsAuto-déclaré
AIME 202590,6 %42ᵉ / 108llm-statsAuto-déclaré
MMLU-Redux89,3 %26ᵉ / 48llm-statsAuto-déclaré
Tau2 Telecom83,1 %19ᵉ / 34llm-statsAuto-déclaré
MMLU-Pro82,6 %33ᵉ / 125llm-statsAuto-déclaré
GPQA81,5 %64ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench79,4 %10ᵉ / 72llm-statsAuto-déclaré
BFCL-v374,4 %3ᵉ / 19llm-statsAuto-déclaré
Tau2 Retail71,5 %16ᵉ / 25llm-statsAuto-déclaré
Tau2 Airline67,5 %3ᵉ / 22llm-statsAuto-déclaré
SWE-Bench Verified59,4 %76ᵉ / 100llm-statsAuto-déclaré
ARC-AGI50,3 %6ᵉ / 7llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. LongCat-Flash-Thinking se distingue d’abord par son format open-weights sous licence MIT, qui autorise les usages commerciaux et donne une marge d’intégration plus large qu’un modèle fermé. Sa fenêtre de contexte de 128 000 tokens le rend adapté aux traitements de documents longs, aux corpus volumineux et aux tâches où la continuité du contexte compte. Son échelle de 560 milliards de paramètres en fait un modèle massif dans sa génération. Sur GPQA, il figurait à sa sortie dans le haut du panier, avec un classement dans le top 12% des LLM publiés sur une période comparable.

Limites et points d'attention. Les données disponibles ne décrivent qu’un seul signal de performance, GPQA, ce qui ne permet pas de conclure sur le code, les agents, les mathématiques avancées ou les usages conversationnels. La couverture repose sur 1 source concordante, un niveau d’appui limité pour une évaluation complète. Le très grand nombre de paramètres peut aussi compliquer l’exploitation pratique par rapport à des modèles plus compacts. Ce profil convient surtout aux équipes cherchant un LLM ouvert, commercialement exploitable, avec long contexte et bon positionnement initial sur GPQA.


Sources des données : LLM-Stats (llm-stats.com).