Qwen3.5-27B

Qwen3.5-27B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0, avec usage commercial autorisé. Son format de 27 milliards de paramètres le place dans une catégorie intermédiaire, tout en offrant une très grande fenêtre de contexte de 262 144 tokens.

Qwen3.5-27B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0, avec usage commercial autorisé. Son format de 27 milliards de paramètres le place dans une catégorie intermédiaire, tout en offrant une très grande fenêtre de contexte de 262 144 tokens.

Son positionnement le plus net est économique : son tarif est très inférieur à celui des LLM similaires et environ 24,8 fois plus bas que celui des modèles frontière. À sa sortie, Qwen3.5-27B figurait dans le top 15% de sa génération sur GPQA, d'après 5 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie24 février 2026
Multimodaloui
Paramètres27 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index33.848ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)94,0 %126ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)80,0 %48ᵉ / 252benchable✅ Mesuré
Benchable : General Knowledge (Baseline)0,0 %238ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)0,0 %237ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)0,0 %232ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)0,0 %236ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)0,0 %206ᵉ / 217benchable✅ Mesuré
CountBench97,8 %1ᵉ / 6llm-statsAuto-déclaré
VLMsAreBlind96,9 %3ᵉ / 4llm-statsAuto-déclaré
IFEval95,0 %1ᵉ / 65llm-statsAuto-déclaré
V*93,7 %4ᵉ / 7llm-statsAuto-déclaré
MMLU-Redux93,2 %13ᵉ / 48llm-statsAuto-déclaré
AI2D92,9 %7ᵉ / 32llm-statsAuto-déclaré
MMBench-V1.192,6 %3ᵉ / 18llm-statsAuto-déclaré
HMMT 202592,0 %14ᵉ / 33llm-statsAuto-déclaré
RefCOCO-avg90,9 %6ᵉ / 7llm-statsAuto-déclaré
C-Eval90,5 %7ᵉ / 18llm-statsAuto-déclaré
HMMT2589,8 %7ᵉ / 25llm-statsAuto-déclaré
OCRBench89,4 %8ᵉ / 22llm-statsAuto-déclaré
OmniDocBench 1.588,9 %8ᵉ / 13llm-statsAuto-déclaré
MAXIFE88,0 %5ᵉ / 11llm-statsAuto-déclaré
MathVista-Mini87,8 %2ᵉ / 23llm-statsAuto-déclaré
DynaMath87,7 %2ᵉ / 7llm-statsAuto-déclaré
Global PIQA87,5 %8ᵉ / 13llm-statsAuto-déclaré
VideoMME w sub.87,0 %3ᵉ / 9llm-statsAuto-déclaré
MMLU-Pro86,1 %13ᵉ / 125llm-statsAuto-déclaré
MathVision86,0 %7ᵉ / 31llm-statsAuto-déclaré
MLVU85,9 %6ᵉ / 10llm-statsAuto-déclaré
MMMLU85,9 %26ᵉ / 49llm-statsAuto-déclaré
GPQA85,5 %41ᵉ / 213llm-statsAuto-déclaré
EmbSpatialBench84,5 %2ᵉ / 8llm-statsAuto-déclaré
RealWorldQA83,7 %9ᵉ / 25llm-statsAuto-déclaré
VideoMME w/o sub.82,8 %2ᵉ / 10llm-statsAuto-déclaré
MMMU82,3 %8ᵉ / 61llm-statsAuto-déclaré
VideoMMMU82,3 %14ᵉ / 26llm-statsAuto-déclaré
MMLU-ProX82,2 %6ᵉ / 32llm-statsAuto-déclaré
LingoQA82,0 %2ᵉ / 4llm-statsAuto-déclaré
Include81,6 %7ᵉ / 31llm-statsAuto-déclaré
CC-OCR81,0 %7ᵉ / 18llm-statsAuto-déclaré
MMStar81,0 %5ᵉ / 22llm-statsAuto-déclaré
CodeForces80,7 %7ᵉ / 16llm-statsAuto-déclaré
LiveCodeBench v680,7 %17ᵉ / 53llm-statsAuto-déclaré
SlakeVQA80,0 %2ᵉ / 4llm-statsAuto-déclaré
CharXiv-R79,5 %17ᵉ / 42llm-statsAuto-déclaré
t2-bench79,0 %15ᵉ / 23llm-statsAuto-déclaré
WMT24++77,6 %10ᵉ / 23llm-statsAuto-déclaré
IFBench76,5 %6ᵉ / 27llm-statsAuto-déclaré
MMMU-Pro75,0 %29ᵉ / 60llm-statsAuto-déclaré
MVBench74,6 %4ᵉ / 17llm-statsAuto-déclaré
LVBench73,6 %6ᵉ / 23llm-statsAuto-déclaré
MMVU73,3 %3ᵉ / 4llm-statsAuto-déclaré
SWE-Bench Verified72,4 %48ᵉ / 100llm-statsAuto-déclaré
PolyMATH71,2 %5ᵉ / 23llm-statsAuto-déclaré
ScreenSpot Pro70,3 %7ᵉ / 23llm-statsAuto-déclaré
Hallusion Bench70,0 %1ᵉ / 16llm-statsAuto-déclaré
BFCL-V468,5 %5ᵉ / 13llm-statsAuto-déclaré
RefSpatialBench67,7 %4ᵉ / 6llm-statsAuto-déclaré
AA-LCR66,1 %6ᵉ / 14llm-statsAuto-déclaré
SuperGPQA65,6 %9ᵉ / 34llm-statsAuto-déclaré
AndroidWorld_SR64,2 %3ᵉ / 8llm-statsAuto-déclaré
MedXpertQA62,4 %3ᵉ / 12llm-statsAuto-déclaré
PMC-VQA62,4 %2ᵉ / 3llm-statsAuto-déclaré
BrowseComp-zh62,1 %9ᵉ / 13llm-statsAuto-déclaré
WideSearch61,1 %5ᵉ / 8llm-statsAuto-déclaré
BrowseComp61,0 %27ᵉ / 51llm-statsAuto-déclaré
Multi-Challenge60,8 %9ᵉ / 28llm-statsAuto-déclaré
LongBench v260,6 %7ᵉ / 15llm-statsAuto-déclaré
ERQA60,5 %11ᵉ / 22llm-statsAuto-déclaré
MMLongBench-Doc60,2 %2ᵉ / 5llm-statsAuto-déclaré
FullStackBench en60,1 %2ᵉ / 3llm-statsAuto-déclaré
TIR-Bench59,8 %2ᵉ / 4llm-statsAuto-déclaré
NOVA-6358,1 %5ᵉ / 11llm-statsAuto-déclaré
FullStackBench zh57,4 %2ᵉ / 3llm-statsAuto-déclaré
OSWorld-Verified56,2 %15ᵉ / 17llm-statsAuto-déclaré
SimpleVQA56,0 %13ᵉ / 13llm-statsAuto-déclaré
Humanity's Last Exam48,5 %18ᵉ / 86llm-statsAuto-déclaré
Seal-047,2 %3ᵉ / 6llm-statsAuto-déclaré
BabyVision44,6 %5ᵉ / 7llm-statsAuto-déclaré
VITA-Bench41,9 %5ᵉ / 10llm-statsAuto-déclaré
Terminal-Bench 2.041,6 %42ᵉ / 48llm-statsAuto-déclaré
ODinW41,1 %14ᵉ / 16llm-statsAuto-déclaré
OJBench40,1 %3ᵉ / 9llm-statsAuto-déclaré
ZEROBench-Sub36,2 %1ᵉ / 5llm-statsAuto-déclaré
SUNRGBD35,4 %2ᵉ / 4llm-statsAuto-déclaré
DeepPlanning22,6 %7ᵉ / 9llm-statsAuto-déclaré
Nuscene15,2 %2ᵉ / 3llm-statsAuto-déclaré
Hypersim13,0 %2ᵉ / 4llm-statsAuto-déclaré
ZEROBench10,0 %5ᵉ / 8llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nemotron 3 Ultra 550B A…37.8
▶ Qwen3.5-27B33.8

Benchable : Email Classification (Baseline)

▶ Qwen3.5-27B98 %
WizardLM-2 8x22B95 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1409112ᵉ
Arena Code135759ᵉ
Arena Vision122046ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,195 $1,56 $n.d.
novita0,3 $2,4 $n.d.
artificialanalysis0,3 $2,4 $0,28 $

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,35 $
Latence moyenne par benchmark — Benchable30 min 51 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3.5-27B se distingue d'abord par son rapport coût-contexte : une fenêtre de 262 144 tokens, associée à une tarification 90% sous la moyenne des LLM similaires, en fait un modèle adapté aux traitements longs à budget contraint. Ses meilleurs signaux Benchable apparaissent sur Email Classification et Hallucinations, deux évaluations où il obtient des résultats élevés, ainsi que sur Instruction Following, où il se situe dans une zone compétitive. À sa sortie, son classement GPQA le plaçait dans le haut du panier des LLM de sa période. Les classements Arena indiquent aussi une présence exploitable en code et en vision, avec un rang plus favorable que son Arena text.

Limites et points d'attention. Les résultats Benchable révèlent des faiblesses marquées en General Knowledge, Coding et Reasoning, avec des scores au plancher sur ces trois axes. L’Intelligence Index le situe plutôt en milieu de classement, malgré un bon signal générationnel sur GPQA à sa sortie. Qwen3.5-27B ne se présente donc pas comme un modèle généraliste haut de gamme, mais comme une option open-weights économique, longue fenêtre de contexte, pertinente pour des usages encadrés comme la classification d’e-mails, le suivi d’instructions simples et les traitements volumineux où le coût par token compte fortement.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).