Qwen

Qwen3.5-27B

Qwen3.5-27B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0, avec usage commercial autorisé. Son format de 27 milliards de paramètres le place dans une catégorie intermédiaire, tout en offrant une très grande fenêtre de contexte de 262 144 tokens.

Son positionnement le plus net est économique : son tarif est très inférieur à celui des LLM similaires et environ 24,8 fois plus bas que celui des modèles frontière. À sa sortie, Qwen3.5-27B figurait dans le top 15% de sa génération sur GPQA, d'après 5 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	24 février 2026
Multimodal	oui
Paramètres	27 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	33.8	48ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	94,0 %	126ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	80,0 %	48ᵉ / 252	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	0,0 %	237ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	0,0 %	232ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	0,0 %	236ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	0,0 %	206ᵉ / 217	benchable	✅ Mesuré
CountBench	97,8 %	1ᵉ / 6	llm-stats	Auto-déclaré
VLMsAreBlind	96,9 %	3ᵉ / 4	llm-stats	Auto-déclaré
IFEval	95,0 %	1ᵉ / 65	llm-stats	Auto-déclaré
V*	93,7 %	4ᵉ / 7	llm-stats	Auto-déclaré
MMLU-Redux	93,2 %	13ᵉ / 48	llm-stats	Auto-déclaré
AI2D	92,9 %	7ᵉ / 32	llm-stats	Auto-déclaré
MMBench-V1.1	92,6 %	3ᵉ / 18	llm-stats	Auto-déclaré
HMMT 2025	92,0 %	14ᵉ / 33	llm-stats	Auto-déclaré
RefCOCO-avg	90,9 %	6ᵉ / 7	llm-stats	Auto-déclaré
C-Eval	90,5 %	7ᵉ / 18	llm-stats	Auto-déclaré
HMMT25	89,8 %	7ᵉ / 25	llm-stats	Auto-déclaré
OCRBench	89,4 %	8ᵉ / 22	llm-stats	Auto-déclaré
OmniDocBench 1.5	88,9 %	8ᵉ / 13	llm-stats	Auto-déclaré
MAXIFE	88,0 %	5ᵉ / 11	llm-stats	Auto-déclaré
MathVista-Mini	87,8 %	2ᵉ / 23	llm-stats	Auto-déclaré
DynaMath	87,7 %	2ᵉ / 7	llm-stats	Auto-déclaré
Global PIQA	87,5 %	8ᵉ / 13	llm-stats	Auto-déclaré
VideoMME w sub.	87,0 %	3ᵉ / 9	llm-stats	Auto-déclaré
MMLU-Pro	86,1 %	13ᵉ / 125	llm-stats	Auto-déclaré
MathVision	86,0 %	7ᵉ / 31	llm-stats	Auto-déclaré
MLVU	85,9 %	6ᵉ / 10	llm-stats	Auto-déclaré
MMMLU	85,9 %	26ᵉ / 49	llm-stats	Auto-déclaré
GPQA	85,5 %	41ᵉ / 213	llm-stats	Auto-déclaré
EmbSpatialBench	84,5 %	2ᵉ / 8	llm-stats	Auto-déclaré
RealWorldQA	83,7 %	9ᵉ / 25	llm-stats	Auto-déclaré
VideoMME w/o sub.	82,8 %	2ᵉ / 10	llm-stats	Auto-déclaré
MMMU	82,3 %	8ᵉ / 61	llm-stats	Auto-déclaré
VideoMMMU	82,3 %	14ᵉ / 26	llm-stats	Auto-déclaré
MMLU-ProX	82,2 %	6ᵉ / 32	llm-stats	Auto-déclaré
LingoQA	82,0 %	2ᵉ / 4	llm-stats	Auto-déclaré
Include	81,6 %	7ᵉ / 31	llm-stats	Auto-déclaré
CC-OCR	81,0 %	7ᵉ / 18	llm-stats	Auto-déclaré
MMStar	81,0 %	5ᵉ / 22	llm-stats	Auto-déclaré
CodeForces	80,7 %	7ᵉ / 16	llm-stats	Auto-déclaré
LiveCodeBench v6	80,7 %	17ᵉ / 53	llm-stats	Auto-déclaré
SlakeVQA	80,0 %	2ᵉ / 4	llm-stats	Auto-déclaré
CharXiv-R	79,5 %	17ᵉ / 42	llm-stats	Auto-déclaré
t2-bench	79,0 %	15ᵉ / 23	llm-stats	Auto-déclaré
WMT24++	77,6 %	10ᵉ / 23	llm-stats	Auto-déclaré
IFBench	76,5 %	6ᵉ / 27	llm-stats	Auto-déclaré
MMMU-Pro	75,0 %	29ᵉ / 60	llm-stats	Auto-déclaré
MVBench	74,6 %	4ᵉ / 17	llm-stats	Auto-déclaré
LVBench	73,6 %	6ᵉ / 23	llm-stats	Auto-déclaré
MMVU	73,3 %	3ᵉ / 4	llm-stats	Auto-déclaré
SWE-Bench Verified	72,4 %	48ᵉ / 100	llm-stats	Auto-déclaré
PolyMATH	71,2 %	5ᵉ / 23	llm-stats	Auto-déclaré
ScreenSpot Pro	70,3 %	7ᵉ / 23	llm-stats	Auto-déclaré
Hallusion Bench	70,0 %	1ᵉ / 16	llm-stats	Auto-déclaré
BFCL-V4	68,5 %	5ᵉ / 13	llm-stats	Auto-déclaré
RefSpatialBench	67,7 %	4ᵉ / 6	llm-stats	Auto-déclaré
AA-LCR	66,1 %	6ᵉ / 14	llm-stats	Auto-déclaré
SuperGPQA	65,6 %	9ᵉ / 34	llm-stats	Auto-déclaré
AndroidWorld_SR	64,2 %	3ᵉ / 8	llm-stats	Auto-déclaré
MedXpertQA	62,4 %	3ᵉ / 12	llm-stats	Auto-déclaré
PMC-VQA	62,4 %	2ᵉ / 3	llm-stats	Auto-déclaré
BrowseComp-zh	62,1 %	9ᵉ / 13	llm-stats	Auto-déclaré
WideSearch	61,1 %	5ᵉ / 8	llm-stats	Auto-déclaré
BrowseComp	61,0 %	27ᵉ / 51	llm-stats	Auto-déclaré
Multi-Challenge	60,8 %	9ᵉ / 28	llm-stats	Auto-déclaré
LongBench v2	60,6 %	7ᵉ / 15	llm-stats	Auto-déclaré
ERQA	60,5 %	11ᵉ / 22	llm-stats	Auto-déclaré
MMLongBench-Doc	60,2 %	2ᵉ / 5	llm-stats	Auto-déclaré
FullStackBench en	60,1 %	2ᵉ / 3	llm-stats	Auto-déclaré
TIR-Bench	59,8 %	2ᵉ / 4	llm-stats	Auto-déclaré
NOVA-63	58,1 %	5ᵉ / 11	llm-stats	Auto-déclaré
FullStackBench zh	57,4 %	2ᵉ / 3	llm-stats	Auto-déclaré
OSWorld-Verified	56,2 %	15ᵉ / 17	llm-stats	Auto-déclaré
SimpleVQA	56,0 %	13ᵉ / 13	llm-stats	Auto-déclaré
Humanity's Last Exam	48,5 %	18ᵉ / 86	llm-stats	Auto-déclaré
Seal-0	47,2 %	3ᵉ / 6	llm-stats	Auto-déclaré
BabyVision	44,6 %	5ᵉ / 7	llm-stats	Auto-déclaré
VITA-Bench	41,9 %	5ᵉ / 10	llm-stats	Auto-déclaré
Terminal-Bench 2.0	41,6 %	42ᵉ / 48	llm-stats	Auto-déclaré
ODinW	41,1 %	14ᵉ / 16	llm-stats	Auto-déclaré
OJBench	40,1 %	3ᵉ / 9	llm-stats	Auto-déclaré
ZEROBench-Sub	36,2 %	1ᵉ / 5	llm-stats	Auto-déclaré
SUNRGBD	35,4 %	2ᵉ / 4	llm-stats	Auto-déclaré
DeepPlanning	22,6 %	7ᵉ / 9	llm-stats	Auto-déclaré
Nuscene	15,2 %	2ᵉ / 3	llm-stats	Auto-déclaré
Hypersim	13,0 %	2ᵉ / 4	llm-stats	Auto-déclaré
ZEROBench	10,0 %	5ᵉ / 8	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nemotron 3 Ultra 550B A…37.8

▶ Qwen3.5-27B33.8

Mistral Medium 3.529.9

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Qwen3.5-27B98 %

WizardLM-2 8x22B95 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1409	112ᵉ
Arena Code	1357	59ᵉ
Arena Vision	1220	46ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,195 $	1,56 $	n.d.
novita	0,3 $	2,4 $	n.d.
artificialanalysis	0,3 $	2,4 $	0,28 $

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,35 $
Latence moyenne par benchmark — Benchable	30 min 51 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3.5-27B se distingue d'abord par son rapport coût-contexte : une fenêtre de 262 144 tokens, associée à une tarification 90% sous la moyenne des LLM similaires, en fait un modèle adapté aux traitements longs à budget contraint. Ses meilleurs signaux Benchable apparaissent sur Email Classification et Hallucinations, deux évaluations où il obtient des résultats élevés, ainsi que sur Instruction Following, où il se situe dans une zone compétitive. À sa sortie, son classement GPQA le plaçait dans le haut du panier des LLM de sa période. Les classements Arena indiquent aussi une présence exploitable en code et en vision, avec un rang plus favorable que son Arena text.

Limites et points d'attention. Les résultats Benchable révèlent des faiblesses marquées en General Knowledge, Coding et Reasoning, avec des scores au plancher sur ces trois axes. L’Intelligence Index le situe plutôt en milieu de classement, malgré un bon signal générationnel sur GPQA à sa sortie. Qwen3.5-27B ne se présente donc pas comme un modèle généraliste haut de gamme, mais comme une option open-weights économique, longue fenêtre de contexte, pertinente pour des usages encadrés comme la classification d’e-mails, le suivi d’instructions simples et les traitements volumineux où le coût par token compte fortement.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Qwen3.5-27B

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast