Qwen: Qwen3 Coder Flash
Qwen: Qwen3 Coder Flash est un LLM de Qwen sorti le 17 septembre 2025, positionné comme une option très économique dans la famille des modèles orientés code. Sa fenêtre de contexte de 1 000 000 tokens le distingue pour l’analyse de longs fichiers, de bases documentaires volumineuses ou…
Qwen: Qwen3 Coder Flash est un LLM de Qwen sorti le 17 septembre 2025, positionné comme une option très économique dans la famille des modèles orientés code. Sa fenêtre de contexte de 1 000 000 tokens le distingue pour l’analyse de longs fichiers, de bases documentaires volumineuses ou de conversations étendues.
Son profil combine un prix d’entrée bas, une sortie facturée sous le dollar par million de tokens et une tarification annoncée 90% sous la moyenne des LLM similaires. Face aux modèles frontière, l’écart tarifaire atteint environ 24,8 fois moins cher, avec une couverture confirmée par 2 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Date de sortie | 17 septembre 2025 |
| Connaissances jusqu'à | 2025-06-30 |
| Multimodal | non |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,0 % | 80ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 91,0 % | 229ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 84,0 % | 139ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 81,5 % | 214ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 78,0 % | 183ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 76,0 % | 131ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 56,0 % | 153ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : Coding (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,195 $ | 0,975 $ | 0,039 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 3 min 29 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen: Qwen3 Coder Flash affiche son meilleur profil sur Ethics (Baseline), où il obtient un résultat élevé, et sur Coding (Baseline), où il se place dans une zone compétitive par rapport à l’ensemble évalué. Le modèle présente aussi de bons scores absolus en Email Classification (Baseline), ce qui signale une capacité correcte à trier ou catégoriser des contenus textuels structurés. Sa très grande fenêtre de contexte constitue un autre atout concret: elle permet de traiter des entrées longues sans découpage aussi fréquent que sur des modèles plus restreints. Son avantage le plus net reste économique, avec un coût très inférieur à celui des LLM similaires et un écart marqué avec les modèles haut de gamme.
Limites et points d'attention. Les résultats Benchable montrent un modèle moins convaincant en General Knowledge (Baseline), Mathematics (Baseline) et Hallucinations (Baseline), où son rang relatif reste plutôt en retrait malgré des scores absolus corrects. La performance en Email Classification (Baseline) doit aussi être lue avec prudence: le score est élevé, mais le classement relatif indique une concurrence dense sur cette tâche. Ses connaissances s’arrêtent au 2025-06-30, ce qui limite la couverture des faits postérieurs. Le modèle convient surtout aux usages où le coût, le code et le très long contexte priment sur la précision générale maximale.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).