Qwen3.5-27B
Qwen3.5-27B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0, avec usage commercial autorisé. Son format de 27 milliards de paramètres le place dans une catégorie intermédiaire, tout en offrant une très grande fenêtre de contexte de 262 144 tokens.
Qwen3.5-27B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0, avec usage commercial autorisé. Son format de 27 milliards de paramètres le place dans une catégorie intermédiaire, tout en offrant une très grande fenêtre de contexte de 262 144 tokens.
Son positionnement le plus net est économique : son tarif est très inférieur à celui des LLM similaires et environ 24,8 fois plus bas que celui des modèles frontière. À sa sortie, Qwen3.5-27B figurait dans le top 15% de sa génération sur GPQA, d'après 5 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 24 février 2026 |
| Multimodal | oui |
| Paramètres | 27 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 33.8 | 48ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 94,0 % | 126ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 80,0 % | 48ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 0,0 % | 238ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 0,0 % | 237ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 0,0 % | 232ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 0,0 % | 236ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 0,0 % | 206ᵉ / 217 | benchable | ✅ Mesuré |
| CountBench | 97,8 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| VLMsAreBlind | 96,9 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| IFEval | 95,0 % | 1ᵉ / 65 | llm-stats | Auto-déclaré |
| V* | 93,7 % | 4ᵉ / 7 | llm-stats | Auto-déclaré |
| MMLU-Redux | 93,2 % | 13ᵉ / 48 | llm-stats | Auto-déclaré |
| AI2D | 92,9 % | 7ᵉ / 32 | llm-stats | Auto-déclaré |
| MMBench-V1.1 | 92,6 % | 3ᵉ / 18 | llm-stats | Auto-déclaré |
| HMMT 2025 | 92,0 % | 14ᵉ / 33 | llm-stats | Auto-déclaré |
| RefCOCO-avg | 90,9 % | 6ᵉ / 7 | llm-stats | Auto-déclaré |
| C-Eval | 90,5 % | 7ᵉ / 18 | llm-stats | Auto-déclaré |
| HMMT25 | 89,8 % | 7ᵉ / 25 | llm-stats | Auto-déclaré |
| OCRBench | 89,4 % | 8ᵉ / 22 | llm-stats | Auto-déclaré |
| OmniDocBench 1.5 | 88,9 % | 8ᵉ / 13 | llm-stats | Auto-déclaré |
| MAXIFE | 88,0 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| MathVista-Mini | 87,8 % | 2ᵉ / 23 | llm-stats | Auto-déclaré |
| DynaMath | 87,7 % | 2ᵉ / 7 | llm-stats | Auto-déclaré |
| Global PIQA | 87,5 % | 8ᵉ / 13 | llm-stats | Auto-déclaré |
| VideoMME w sub. | 87,0 % | 3ᵉ / 9 | llm-stats | Auto-déclaré |
| MMLU-Pro | 86,1 % | 13ᵉ / 125 | llm-stats | Auto-déclaré |
| MathVision | 86,0 % | 7ᵉ / 31 | llm-stats | Auto-déclaré |
| MLVU | 85,9 % | 6ᵉ / 10 | llm-stats | Auto-déclaré |
| MMMLU | 85,9 % | 26ᵉ / 49 | llm-stats | Auto-déclaré |
| GPQA | 85,5 % | 41ᵉ / 213 | llm-stats | Auto-déclaré |
| EmbSpatialBench | 84,5 % | 2ᵉ / 8 | llm-stats | Auto-déclaré |
| RealWorldQA | 83,7 % | 9ᵉ / 25 | llm-stats | Auto-déclaré |
| VideoMME w/o sub. | 82,8 % | 2ᵉ / 10 | llm-stats | Auto-déclaré |
| MMMU | 82,3 % | 8ᵉ / 61 | llm-stats | Auto-déclaré |
| VideoMMMU | 82,3 % | 14ᵉ / 26 | llm-stats | Auto-déclaré |
| MMLU-ProX | 82,2 % | 6ᵉ / 32 | llm-stats | Auto-déclaré |
| LingoQA | 82,0 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| Include | 81,6 % | 7ᵉ / 31 | llm-stats | Auto-déclaré |
| CC-OCR | 81,0 % | 7ᵉ / 18 | llm-stats | Auto-déclaré |
| MMStar | 81,0 % | 5ᵉ / 22 | llm-stats | Auto-déclaré |
| CodeForces | 80,7 % | 7ᵉ / 16 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 80,7 % | 17ᵉ / 53 | llm-stats | Auto-déclaré |
| SlakeVQA | 80,0 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| CharXiv-R | 79,5 % | 17ᵉ / 42 | llm-stats | Auto-déclaré |
| t2-bench | 79,0 % | 15ᵉ / 23 | llm-stats | Auto-déclaré |
| WMT24++ | 77,6 % | 10ᵉ / 23 | llm-stats | Auto-déclaré |
| IFBench | 76,5 % | 6ᵉ / 27 | llm-stats | Auto-déclaré |
| MMMU-Pro | 75,0 % | 29ᵉ / 60 | llm-stats | Auto-déclaré |
| MVBench | 74,6 % | 4ᵉ / 17 | llm-stats | Auto-déclaré |
| LVBench | 73,6 % | 6ᵉ / 23 | llm-stats | Auto-déclaré |
| MMVU | 73,3 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 72,4 % | 48ᵉ / 100 | llm-stats | Auto-déclaré |
| PolyMATH | 71,2 % | 5ᵉ / 23 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 70,3 % | 7ᵉ / 23 | llm-stats | Auto-déclaré |
| Hallusion Bench | 70,0 % | 1ᵉ / 16 | llm-stats | Auto-déclaré |
| BFCL-V4 | 68,5 % | 5ᵉ / 13 | llm-stats | Auto-déclaré |
| RefSpatialBench | 67,7 % | 4ᵉ / 6 | llm-stats | Auto-déclaré |
| AA-LCR | 66,1 % | 6ᵉ / 14 | llm-stats | Auto-déclaré |
| SuperGPQA | 65,6 % | 9ᵉ / 34 | llm-stats | Auto-déclaré |
| AndroidWorld_SR | 64,2 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| MedXpertQA | 62,4 % | 3ᵉ / 12 | llm-stats | Auto-déclaré |
| PMC-VQA | 62,4 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| BrowseComp-zh | 62,1 % | 9ᵉ / 13 | llm-stats | Auto-déclaré |
| WideSearch | 61,1 % | 5ᵉ / 8 | llm-stats | Auto-déclaré |
| BrowseComp | 61,0 % | 27ᵉ / 51 | llm-stats | Auto-déclaré |
| Multi-Challenge | 60,8 % | 9ᵉ / 28 | llm-stats | Auto-déclaré |
| LongBench v2 | 60,6 % | 7ᵉ / 15 | llm-stats | Auto-déclaré |
| ERQA | 60,5 % | 11ᵉ / 22 | llm-stats | Auto-déclaré |
| MMLongBench-Doc | 60,2 % | 2ᵉ / 5 | llm-stats | Auto-déclaré |
| FullStackBench en | 60,1 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| TIR-Bench | 59,8 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| NOVA-63 | 58,1 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| FullStackBench zh | 57,4 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| OSWorld-Verified | 56,2 % | 15ᵉ / 17 | llm-stats | Auto-déclaré |
| SimpleVQA | 56,0 % | 13ᵉ / 13 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 48,5 % | 18ᵉ / 86 | llm-stats | Auto-déclaré |
| Seal-0 | 47,2 % | 3ᵉ / 6 | llm-stats | Auto-déclaré |
| BabyVision | 44,6 % | 5ᵉ / 7 | llm-stats | Auto-déclaré |
| VITA-Bench | 41,9 % | 5ᵉ / 10 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 41,6 % | 42ᵉ / 48 | llm-stats | Auto-déclaré |
| ODinW | 41,1 % | 14ᵉ / 16 | llm-stats | Auto-déclaré |
| OJBench | 40,1 % | 3ᵉ / 9 | llm-stats | Auto-déclaré |
| ZEROBench-Sub | 36,2 % | 1ᵉ / 5 | llm-stats | Auto-déclaré |
| SUNRGBD | 35,4 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| DeepPlanning | 22,6 % | 7ᵉ / 9 | llm-stats | Auto-déclaré |
| Nuscene | 15,2 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| Hypersim | 13,0 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| ZEROBench | 10,0 % | 5ᵉ / 8 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Benchable : Email Classification (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1409 | 112ᵉ |
| Arena Code | 1357 | 59ᵉ |
| Arena Vision | 1220 | 46ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,195 $ | 1,56 $ | n.d. |
| novita | 0,3 $ | 2,4 $ | n.d. |
| artificialanalysis | 0,3 $ | 2,4 $ | 0,28 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,35 $ |
| Latence moyenne par benchmark — Benchable | 30 min 51 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3.5-27B se distingue d'abord par son rapport coût-contexte : une fenêtre de 262 144 tokens, associée à une tarification 90% sous la moyenne des LLM similaires, en fait un modèle adapté aux traitements longs à budget contraint. Ses meilleurs signaux Benchable apparaissent sur Email Classification et Hallucinations, deux évaluations où il obtient des résultats élevés, ainsi que sur Instruction Following, où il se situe dans une zone compétitive. À sa sortie, son classement GPQA le plaçait dans le haut du panier des LLM de sa période. Les classements Arena indiquent aussi une présence exploitable en code et en vision, avec un rang plus favorable que son Arena text.
Limites et points d'attention. Les résultats Benchable révèlent des faiblesses marquées en General Knowledge, Coding et Reasoning, avec des scores au plancher sur ces trois axes. L’Intelligence Index le situe plutôt en milieu de classement, malgré un bon signal générationnel sur GPQA à sa sortie. Qwen3.5-27B ne se présente donc pas comme un modèle généraliste haut de gamme, mais comme une option open-weights économique, longue fenêtre de contexte, pertinente pour des usages encadrés comme la classification d’e-mails, le suivi d’instructions simples et les traitements volumineux où le coût par token compte fortement.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).