Meituan

LongCat-Flash-Thinking

LongCat-Flash-Thinking est un LLM de Meituan publié le 22 septembre 2025 sous licence MIT, avec des poids ouverts et un usage commercial autorisé. Son positionnement combine un très grand volume de paramètres et une fenêtre de contexte longue, deux éléments qui le placent dans la…

À sa sortie, LongCat-Flash-Thinking se situait dans le top 12% des 130 LLM de sa génération sur GPQA, un repère utile pour évaluer son niveau relatif sur un benchmark exigeant. La fiche repose sur une source de données concordante, ce qui invite à distinguer les points établis des capacités non documentées.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meituan
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Multimodal	non
Paramètres	560 milliards
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
MATH-500	99,2 %	1ᵉ / 31	llm-stats	Auto-déclaré
ZebraLogic	95,5 %	2ᵉ / 7	llm-stats	Auto-déclaré
AIME 2024	93,3 %	3ᵉ / 52	llm-stats	Auto-déclaré
AIME 2025	90,6 %	42ᵉ / 108	llm-stats	Auto-déclaré
MMLU-Redux	89,3 %	26ᵉ / 48	llm-stats	Auto-déclaré
Tau2 Telecom	83,1 %	19ᵉ / 34	llm-stats	Auto-déclaré
MMLU-Pro	82,6 %	33ᵉ / 125	llm-stats	Auto-déclaré
GPQA	81,5 %	64ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	79,4 %	10ᵉ / 72	llm-stats	Auto-déclaré
BFCL-v3	74,4 %	3ᵉ / 19	llm-stats	Auto-déclaré
Tau2 Retail	71,5 %	16ᵉ / 25	llm-stats	Auto-déclaré
Tau2 Airline	67,5 %	3ᵉ / 22	llm-stats	Auto-déclaré
SWE-Bench Verified	59,4 %	76ᵉ / 100	llm-stats	Auto-déclaré
ARC-AGI	50,3 %	6ᵉ / 7	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. LongCat-Flash-Thinking se distingue d’abord par son format open-weights sous licence MIT, qui autorise les usages commerciaux et donne une marge d’intégration plus large qu’un modèle fermé. Sa fenêtre de contexte de 128 000 tokens le rend adapté aux traitements de documents longs, aux corpus volumineux et aux tâches où la continuité du contexte compte. Son échelle de 560 milliards de paramètres en fait un modèle massif dans sa génération. Sur GPQA, il figurait à sa sortie dans le haut du panier, avec un classement dans le top 12% des LLM publiés sur une période comparable.

Limites et points d'attention. Les données disponibles ne décrivent qu’un seul signal de performance, GPQA, ce qui ne permet pas de conclure sur le code, les agents, les mathématiques avancées ou les usages conversationnels. La couverture repose sur 1 source concordante, un niveau d’appui limité pour une évaluation complète. Le très grand nombre de paramètres peut aussi compliquer l’exploitation pratique par rapport à des modèles plus compacts. Ce profil convient surtout aux équipes cherchant un LLM ouvert, commercialement exploitable, avec long contexte et bon positionnement initial sur GPQA.

Sources des données : LLM-Stats (llm-stats.com).

LongCat-Flash-Thinking

Caractéristiques

Performances (benchmarks)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast