Qwen

Qwen: Qwen3.6 Flash

Qwen: Qwen3.6 Flash est un LLM de Qwen publié le 27 avril 2026, positionné sur le segment très économique. Son élément le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, associée à un tarif annoncé très inférieur à celui des LLM comparables et des modèles frontière.

Le modèle combine un coût d’entrée bas, une sortie plus chère mais encore économique, et des résultats de benchmark qui le placent surtout en bonne position sur les tâches agentiques et la classification d’e-mails. Les données disponibles reposent sur 5 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Date de sortie	27 avril 2026
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image,video → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	88,1 %	6ᵉ / 52	pinchbench	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	86,1 %	32ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	84,4 %	31ᵉ / 132	epoch	✅ Mesuré
LiveBench: Mathematics	78,9 %	40ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	70,0 %	92ᵉ / 252	benchable	✅ Mesuré
LiveBench: Coding	64,9 %	64ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	63,1 %	56ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	62,9 %	46ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	60,4 %	43ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	58,8 %	35ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	47,2 %	47ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	46,7 %	38ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	21,2 %	43ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	20,0 %	27ᵉ / 64	epoch	✅ Mesuré
Epoch: Chess Puzzles	17,2 %	29ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	10,3 %	37ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	0,0 %	47ᵉ / 55	epoch	✅ Mesuré
Benchable : Coding (Baseline)	0,0 %	237ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	0,0 %	232ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	0,0 %	236ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	0,0 %	206ᵉ / 217	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Qwen3.6 Flash99 %

WizardLM-2 8x22B95 %

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Phi 496 %

▶ Qwen3.6 Flash96 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,1875 $	1,125 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 25,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	14,29 $
Durée d'exécution — PinchBench	3 h 42 min
Indice valeur/coût — PinchBench	7,08
Coût moyen par benchmark — Benchable	0,07 $
Latence moyenne par benchmark — Benchable	7 min 10 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen: Qwen3.6 Flash se distingue d’abord par son rapport capacité-prix: sa tarification est indiquée 90% sous la moyenne des LLM similaires et environ 25,8 fois moins chère que les modèles frontière. La fenêtre de contexte de 1 000 000 tokens en fait un modèle adapté aux traitements longs, avec un coût contenu. Côté performances, son meilleur signal vient de PinchBench OpenClaw, où il atteint le top 10 sur des tâches agentiques. Il obtient aussi un résultat très élevé en Email Classification (Baseline). À sa sortie, il se situait dans le top 35% de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat.

Limites et points d'attention. Le modèle ne se présente pas comme un leader généraliste. Sur GPQA diamond et OTIS Mock AIME 2024-2025, ses résultats sont solides mais restent hors du tout premier groupe. LiveBench: Mathematics le place plutôt en milieu de tableau, ce qui limite son intérêt pour les usages mathématiques exigeants. Le score Hallucinations (Baseline) est élevé en valeur absolue, mais son rang indique une concurrence dense sur ce critère. Profil adapté aux grands volumes de texte, aux workflows agentiques et aux tâches de classification quand le coût par token est un facteur central.

Sources des données : OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Qwen: Qwen3.6 Flash

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast