Qwen: Qwen3.6 Flash
Qwen: Qwen3.6 Flash est un LLM de Qwen publié le 27 avril 2026, positionné sur le segment très économique. Son élément le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, associée à un tarif annoncé très inférieur à celui des LLM comparables et des modèles frontière.
Qwen: Qwen3.6 Flash est un LLM de Qwen publié le 27 avril 2026, positionné sur le segment très économique. Son élément le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, associée à un tarif annoncé très inférieur à celui des LLM comparables et des modèles frontière.
Le modèle combine un coût d’entrée bas, une sortie plus chère mais encore économique, et des résultats de benchmark qui le placent surtout en bonne position sur les tâches agentiques et la classification d’e-mails. Les données disponibles reposent sur 5 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Date de sortie | 27 avril 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image,video → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 88,1 % | 6ᵉ / 52 | pinchbench | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 86,1 % | 32ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 84,4 % | 31ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 78,9 % | 40ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 70,0 % | 92ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Coding | 64,9 % | 64ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 63,1 % | 56ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 62,9 % | 46ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 60,4 % | 43ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 58,8 % | 35ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 47,2 % | 47ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 46,7 % | 38ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 21,2 % | 43ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 20,0 % | 27ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 17,2 % | 29ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 10,3 % | 37ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 0,0 % | 47ᵉ / 55 | epoch | ✅ Mesuré |
| Benchable : Coding (Baseline) | 0,0 % | 237ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 0,0 % | 238ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 0,0 % | 232ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 0,0 % | 236ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 0,0 % | 206ᵉ / 217 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Hallucinations (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,1875 $ | 1,125 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 25,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 14,29 $ |
| Durée d'exécution — PinchBench | 3 h 42 min |
| Indice valeur/coût — PinchBench | 7,08 |
| Coût moyen par benchmark — Benchable | 0,07 $ |
| Latence moyenne par benchmark — Benchable | 7 min 10 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen: Qwen3.6 Flash se distingue d’abord par son rapport capacité-prix: sa tarification est indiquée 90% sous la moyenne des LLM similaires et environ 25,8 fois moins chère que les modèles frontière. La fenêtre de contexte de 1 000 000 tokens en fait un modèle adapté aux traitements longs, avec un coût contenu. Côté performances, son meilleur signal vient de PinchBench OpenClaw, où il atteint le top 10 sur des tâches agentiques. Il obtient aussi un résultat très élevé en Email Classification (Baseline). À sa sortie, il se situait dans le top 35% de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat.
Limites et points d'attention. Le modèle ne se présente pas comme un leader généraliste. Sur GPQA diamond et OTIS Mock AIME 2024-2025, ses résultats sont solides mais restent hors du tout premier groupe. LiveBench: Mathematics le place plutôt en milieu de tableau, ce qui limite son intérêt pour les usages mathématiques exigeants. Le score Hallucinations (Baseline) est élevé en valeur absolue, mais son rang indique une concurrence dense sur ce critère. Profil adapté aux grands volumes de texte, aux workflows agentiques et aux tâches de classification quand le coût par token est un facteur central.
Sources des données : OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).