Qwen

Qwen3.6-27B

Qwen3.6-27B est un LLM open-weights de Qwen publié le 21 avril 2026 sous licence Apache 2.0, avec usage commercial autorisé. Avec 28 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se positionne comme un modèle de taille intermédiaire capable d’exploiter de longs…

Son intérêt principal tient à l’équilibre entre ouverture, contexte étendu et coût très bas. Sa tarification se situe très en dessous de la moyenne des LLM similaires et reste nettement inférieure à celle des modèles frontière, ce qui donne à Qwen3.6-27B un positionnement d’infrastructure économique.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	21 avril 2026
Multimodal	oui
Paramètres	28 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	80,0 %	178ᵉ / 229	benchable	✅ Mesuré
LiveBench: Mathematics	79,9 %	37ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	72,7 %	77ᵉ / 252	benchable	✅ Mesuré
LiveBench: Coding	71,8 %	38ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	70,4 %	18ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	70,3 %	38ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	65,6 %	35ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	63,3 %	55ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	53,2 %	44ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	50,0 %	30ᵉ / 76	livebench	✅ Mesuré
CountBench	97,8 %	1ᵉ / 6	llm-stats	Auto-déclaré
VLMsAreBlind	97,0 %	1ᵉ / 4	llm-stats	Auto-déclaré
V*	94,7 %	3ᵉ / 7	llm-stats	Auto-déclaré
AIME 2026	94,1 %	7ᵉ / 17	llm-stats	Auto-déclaré
HMMT 2025	93,8 %	11ᵉ / 33	llm-stats	Auto-déclaré
MMLU-Redux	93,5 %	9ᵉ / 48	llm-stats	Auto-déclaré
RefCOCO-avg	92,5 %	2ᵉ / 7	llm-stats	Auto-déclaré
MMBench-V1.1	92,3 %	4ᵉ / 18	llm-stats	Auto-déclaré
C-Eval	91,4 %	6ᵉ / 18	llm-stats	Auto-déclaré
HMMT25	90,7 %	4ᵉ / 25	llm-stats	Auto-déclaré
OCRBench	89,4 %	8ᵉ / 22	llm-stats	Auto-déclaré
GPQA	87,8 %	27ᵉ / 213	llm-stats	Auto-déclaré
VideoMME w sub.	87,7 %	1ᵉ / 9	llm-stats	Auto-déclaré
MathVista-Mini	87,4 %	3ᵉ / 23	llm-stats	Auto-déclaré
MLVU	86,6 %	4ᵉ / 10	llm-stats	Auto-déclaré
MMLU-Pro	86,2 %	11ᵉ / 125	llm-stats	Auto-déclaré
DynaMath	85,6 %	4ᵉ / 7	llm-stats	Auto-déclaré
EmbSpatialBench	84,6 %	1ᵉ / 8	llm-stats	Auto-déclaré
VideoMMMU	84,4 %	9ᵉ / 26	llm-stats	Auto-déclaré
HMMT Feb 26	84,3 %	9ᵉ / 11	llm-stats	Auto-déclaré
RealWorldQA	84,1 %	7ᵉ / 25	llm-stats	Auto-déclaré
LiveCodeBench v6	83,9 %	11ᵉ / 53	llm-stats	Auto-déclaré
MMMU	82,9 %	6ᵉ / 61	llm-stats	Auto-déclaré
MMStar	81,4 %	4ᵉ / 22	llm-stats	Auto-déclaré
CC-OCR	81,2 %	6ᵉ / 18	llm-stats	Auto-déclaré
IMO-AnswerBench	80,8 %	14ᵉ / 18	llm-stats	Auto-déclaré
CharXiv-R	78,4 %	19ᵉ / 42	llm-stats	Auto-déclaré
SWE-Bench Verified	77,2 %	24ᵉ / 100	llm-stats	Auto-déclaré
MMMU-Pro	75,8 %	25ᵉ / 60	llm-stats	Auto-déclaré
MVBench	75,5 %	2ᵉ / 17	llm-stats	Auto-déclaré
SWE-bench Multilingual	71,3 %	15ᵉ / 32	llm-stats	Auto-déclaré
AndroidWorld	70,3 %	3ᵉ / 3	llm-stats	Auto-déclaré
RefSpatialBench	70,0 %	1ᵉ / 6	llm-stats	Auto-déclaré
SuperGPQA	66,0 %	8ᵉ / 34	llm-stats	Auto-déclaré
ERQA	62,5 %	9ᵉ / 22	llm-stats	Auto-déclaré
Claw-Eval	60,6 %	9ᵉ / 12	llm-stats	Auto-déclaré
Terminal-Bench 2.0	59,3 %	20ᵉ / 48	llm-stats	Auto-déclaré
SimpleVQA	56,1 %	12ᵉ / 13	llm-stats	Auto-déclaré
SWE-Bench Pro	53,5 %	26ᵉ / 34	llm-stats	Auto-déclaré
ZClawBench	53,4 %	3ᵉ / 4	llm-stats	Auto-déclaré
SkillsBench	48,2 %	3ᵉ / 5	llm-stats	Auto-déclaré
GDPval-AA	38,6 %	22ᵉ / 33	llm-stats	n.d.
NL2Repo	36,2 %	10ᵉ / 11	llm-stats	Auto-déclaré
Humanity's Last Exam	24,0 %	47ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Qwen3.6-27B98 %

WizardLM-2 8x22B95 %

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Phi 496 %

▶ Qwen3.6-27B80 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
io.net	0,2885 $	2,65 $	n.d.
novita	0,6 $	3,6 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 85 % en dessous de la moyenne des LLM similaires, et 16,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,2 $
Latence moyenne par benchmark — Benchable	36 min 34 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3.6-27B obtient ses signaux les plus solides en classification d’e-mails, en mathématiques sur LiveBench (mathématiques) et surtout en analyse de données sur LiveBench (analyse de données), où son rang le place dans une zone compétitive. Le modèle affiche aussi un niveau correct en programmation sur LiveBench (programmation) et en suivi d’instructions sur Benchable, sans dominer ces catégories. À sa sortie, il figurait dans le top 13% sur GPQA parmi les LLM de sa génération, ce qui le situe dans le haut du panier de son époque sur ce repère. Son autre force nette est économique : son coût est 85% inférieur à la moyenne des LLM similaires et environ 16,8 fois plus bas que celui des modèles frontière.

Limites et points d'attention. Le point faible le plus visible concerne les hallucinations sur Benchable, où son classement reste nettement moins favorable que ses meilleurs résultats. Les performances en programmation et en suivi d’instructions relèvent davantage d’un bon milieu de tableau que d’un niveau de référence. La fiche repose sur 4 sources concordantes, mais aucun autre élément vérifié ne précise ses choix d’entraînement ou ses spécialisations. Qwen3.6-27B convient surtout aux usages où le coût, la licence ouverte, le très long contexte et des performances générales solides priment sur la recherche du meilleur niveau absolu en fiabilité factuelle ou en code avancé.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Benchable.ai (benchable.ai).

Qwen3.6-27B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast