Qwen3.5-9B
Qwen3.5-9B est un LLM open-weights de Qwen, publié le 2 mars 2026 sous licence Apache 2.0, avec usage commercial autorisé. Son format à 9 milliards de paramètres le place dans une catégorie compacte, tandis que sa fenêtre de contexte de 262 144 tokens le distingue pour les traitements…
Qwen3.5-9B est un LLM open-weights de Qwen, publié le 2 mars 2026 sous licence Apache 2.0, avec usage commercial autorisé. Son format à 9 milliards de paramètres le place dans une catégorie compacte, tandis que sa fenêtre de contexte de 262 144 tokens le distingue pour les traitements longs.
Le modèle combine un positionnement tarifaire très économique et des résultats Benchable solides, notamment en éthique, en mathématiques et en connaissances générales. À sa sortie, il se situe dans le top 26% sur GPQA parmi les LLM de sa génération, avec une couverture confirmée par 3 sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 2 mars 2026 |
| Multimodal | oui |
| Paramètres | 9 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,0 % | 113ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 97,0 % | 6ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,0 % | 80ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 79,2 % | 123ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 48,5 % | 179ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 12,0 % | 221ᵉ / 229 | benchable | ✅ Mesuré |
| IFEval | 91,5 % | 12ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU-Redux | 91,1 % | 22ᵉ / 48 | llm-stats | Auto-déclaré |
| C-Eval | 88,2 % | 11ᵉ / 18 | llm-stats | Auto-déclaré |
| MAXIFE | 83,4 % | 8ᵉ / 11 | llm-stats | Auto-déclaré |
| Global PIQA | 83,2 % | 10ᵉ / 13 | llm-stats | Auto-déclaré |
| HMMT 2025 | 83,2 % | 24ᵉ / 33 | llm-stats | Auto-déclaré |
| HMMT25 | 82,9 % | 12ᵉ / 25 | llm-stats | Auto-déclaré |
| MMLU-Pro | 82,5 % | 35ᵉ / 125 | llm-stats | Auto-déclaré |
| GPQA | 81,7 % | 63ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMLU | 81,2 % | 39ᵉ / 49 | llm-stats | Auto-déclaré |
| t2-bench | 79,1 % | 14ᵉ / 23 | llm-stats | Auto-déclaré |
| MMLU-ProX | 76,3 % | 17ᵉ / 32 | llm-stats | Auto-déclaré |
| Include | 75,6 % | 16ᵉ / 31 | llm-stats | Auto-déclaré |
| WMT24++ | 72,6 % | 12ᵉ / 23 | llm-stats | Auto-déclaré |
| BFCL-V4 | 66,1 % | 7ᵉ / 13 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 65,6 % | 35ᵉ / 53 | llm-stats | Auto-déclaré |
| IFBench | 64,5 % | 22ᵉ / 27 | llm-stats | Auto-déclaré |
| AA-LCR | 63,0 % | 8ᵉ / 14 | llm-stats | Auto-déclaré |
| SuperGPQA | 58,2 % | 20ᵉ / 34 | llm-stats | Auto-déclaré |
| PolyMATH | 57,3 % | 9ᵉ / 23 | llm-stats | Auto-déclaré |
| NOVA-63 | 55,9 % | 8ᵉ / 11 | llm-stats | Auto-déclaré |
| LongBench v2 | 55,2 % | 11ᵉ / 15 | llm-stats | Auto-déclaré |
| Multi-Challenge | 54,5 % | 13ᵉ / 28 | llm-stats | Auto-déclaré |
| VITA-Bench | 29,8 % | 9ᵉ / 10 | llm-stats | Auto-déclaré |
| DeepPlanning | 18,0 % | 8ᵉ / 9 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| SiliconFlow | 0,1 $ | 0,15 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,03 $ |
| Latence moyenne par benchmark — Benchable | 1 h 04 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3.5-9B affiche ses meilleurs signaux sur Ethics (Baseline), où il atteint le tout premier rang du comparatif Benchable, et sur Mathematics (Baseline), où il entre dans le top 10. General Knowledge (Baseline) reste très élevé en score absolu, même si son rang le place plus loin dans le classement. Coding (Baseline) apparaît solide pour un modèle de 9 milliards de paramètres, tandis que Email Classification (Baseline) montre une bonne fiabilité sur une tâche de catégorisation structurée. Son autre atout majeur est économique : son prix est 95% inférieur à la moyenne des LLM similaires et environ 48,3 fois plus bas que celui des modèles frontière.
Limites et points d'attention. Reasoning (Baseline) constitue le point le moins favorable du profil, avec un positionnement de milieu de tableau plutôt qu’un niveau de tête. Le classement GPQA situe Qwen3.5-9B dans le haut d’une partie de sa génération à sa sortie, mais pas parmi les tout premiers modèles contemporains. Le modèle vise surtout les usages où le coût, la licence Apache 2.0, le contexte très long et de bons résultats généraux priment sur le raisonnement le plus avancé.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).