Qwen: Qwen3.6 Flash

Qwen: Qwen3.6 Flash est un LLM de Qwen publié le 27 avril 2026, positionné sur le segment très économique. Son élément le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, associée à un tarif annoncé très inférieur à celui des LLM comparables et des modèles frontière.

Qwen: Qwen3.6 Flash est un LLM de Qwen publié le 27 avril 2026, positionné sur le segment très économique. Son élément le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, associée à un tarif annoncé très inférieur à celui des LLM comparables et des modèles frontière.

Le modèle combine un coût d’entrée bas, une sortie plus chère mais encore économique, et des résultats de benchmark qui le placent surtout en bonne position sur les tâches agentiques et la classification d’e-mails. Les données disponibles reposent sur 5 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie27 avril 2026
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image,video → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)88,1 %6ᵉ / 52pinchbench✅ Mesuré
Epoch: OTIS Mock AIME 2024-202586,1 %32ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond84,4 %31ᵉ / 132epoch✅ Mesuré
LiveBench: Mathematics78,9 %40ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)70,0 %92ᵉ / 252benchable✅ Mesuré
LiveBench: Coding64,9 %64ᵉ / 76livebench✅ Mesuré
LiveBench: Language63,1 %56ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning62,9 %46ᵉ / 76livebench✅ Mesuré
LiveBench: Global average60,4 %43ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis58,8 %35ᵉ / 76livebench✅ Mesuré
LiveBench: IF47,2 %47ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding46,7 %38ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified21,2 %43ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public20,0 %27ᵉ / 64epoch✅ Mesuré
Epoch: Chess Puzzles17,2 %29ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private10,3 %37ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private0,0 %47ᵉ / 55epoch✅ Mesuré
Benchable : Coding (Baseline)0,0 %237ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)0,0 %238ᵉ / 250benchable✅ Mesuré
Benchable : Reasoning (Baseline)0,0 %232ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)0,0 %236ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)0,0 %206ᵉ / 217benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

▶ Qwen3.6 Flash99 %
WizardLM-2 8x22B95 %

Benchable : Hallucinations (Baseline)

Phi 496 %
▶ Qwen3.6 Flash96 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,1875 $1,125 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 25,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)14,29 $
Durée d'exécution — PinchBench3 h 42 min
Indice valeur/coût — PinchBench7,08
Coût moyen par benchmark — Benchable0,07 $
Latence moyenne par benchmark — Benchable7 min 10 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen: Qwen3.6 Flash se distingue d’abord par son rapport capacité-prix: sa tarification est indiquée 90% sous la moyenne des LLM similaires et environ 25,8 fois moins chère que les modèles frontière. La fenêtre de contexte de 1 000 000 tokens en fait un modèle adapté aux traitements longs, avec un coût contenu. Côté performances, son meilleur signal vient de PinchBench OpenClaw, où il atteint le top 10 sur des tâches agentiques. Il obtient aussi un résultat très élevé en Email Classification (Baseline). À sa sortie, il se situait dans le top 35% de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat.

Limites et points d'attention. Le modèle ne se présente pas comme un leader généraliste. Sur GPQA diamond et OTIS Mock AIME 2024-2025, ses résultats sont solides mais restent hors du tout premier groupe. LiveBench: Mathematics le place plutôt en milieu de tableau, ce qui limite son intérêt pour les usages mathématiques exigeants. Le score Hallucinations (Baseline) est élevé en valeur absolue, mais son rang indique une concurrence dense sur ce critère. Profil adapté aux grands volumes de texte, aux workflows agentiques et aux tâches de classification quand le coût par token est un facteur central.


Sources des données : OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).