Qwen

Qwen3.6 Plus

Qwen3.6 Plus est un LLM propriétaire de Qwen, sorti le 31 mars 2026 et originaire de Chine. Le modèle se distingue par une fenêtre de contexte très étendue de 1 000 000 tokens, adaptée aux traitements de documents longs et aux tâches nécessitant beaucoup d’historique.

Son positionnement le plus net associe performances solides et coût très bas. La tarification annoncée le place 83% sous la moyenne des LLM similaires et environ 14,9 fois moins cher que les modèles frontière, avec des poids non ouverts.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Proprietary (poids non ouverts)
Date de sortie	31 mars 2026
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	39.6	24ᵉ / 136
Code Index	54.5	23ᵉ / 50
Agentic Index	27.6	20ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: OTIS Mock AIME 2024-2025	90,6 %	22ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	87,4 %	23ᵉ / 132	epoch	✅ Mesuré
LiveBench: Mathematics	83,7 %	26ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	78,2 %	13ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	75,8 %	28ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	75,0 %	32ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	72,5 %	23ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Global average	70,9 %	22ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	69,9 %	20ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	58,3 %	36ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	57,9 %	29ᵉ / 32	epoch	✅ Mesuré
LiveBench: Agentic Coding	55,0 %	15ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	50,0 %	16ᵉ / 64	epoch	✅ Mesuré
Epoch: SimpleQA Verified	49,1 %	18ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	26,2 %	23ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	16,2 %	34ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	8,3 %	21ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
CountBench	97,6 %	4ᵉ / 6	llm-stats	Auto-déclaré
V*	96,9 %	1ᵉ / 7	llm-stats	Auto-déclaré
HMMT 2025	96,7 %	5ᵉ / 33	llm-stats	Auto-déclaré
AIME 2026	95,3 %	3ᵉ / 17	llm-stats	Auto-déclaré
HMMT25	94,6 %	2ᵉ / 25	llm-stats	Auto-déclaré
MMLU-Redux	94,5 %	3ᵉ / 48	llm-stats	Auto-déclaré
AI2D	94,4 %	2ᵉ / 32	llm-stats	Auto-déclaré
IFEval	94,3 %	3ᵉ / 65	llm-stats	Auto-déclaré
RefCOCO-avg	93,5 %	1ᵉ / 7	llm-stats	Auto-déclaré
C-Eval	93,3 %	1ᵉ / 18	llm-stats	Auto-déclaré
OmniDocBench 1.5	91,2 %	3ᵉ / 13	llm-stats	Auto-déclaré
GPQA	90,4 %	14ᵉ / 213	llm-stats	Auto-déclaré
Global PIQA	89,8 %	5ᵉ / 13	llm-stats	Auto-déclaré
MMMLU	89,5 %	10ᵉ / 49	llm-stats	Auto-déclaré
MMLU-Pro	88,5 %	2ᵉ / 125	llm-stats	Auto-déclaré
MAXIFE	88,2 %	3ᵉ / 11	llm-stats	Auto-déclaré
DynaMath	88,0 %	1ᵉ / 7	llm-stats	Auto-déclaré
MathVision	88,0 %	5ᵉ / 31	llm-stats	Auto-déclaré
HMMT Feb 26	87,8 %	7ᵉ / 11	llm-stats	Auto-déclaré
LiveCodeBench v6	87,1 %	7ᵉ / 53	llm-stats	Auto-déclaré
MLVU	86,7 %	3ᵉ / 10	llm-stats	Auto-déclaré
MMMU	86,0 %	1ᵉ / 61	llm-stats	Auto-déclaré
RealWorldQA	85,4 %	4ᵉ / 25	llm-stats	Auto-déclaré
Include	85,1 %	4ᵉ / 31	llm-stats	Auto-déclaré
MMLU-ProX	84,7 %	3ᵉ / 32	llm-stats	Auto-déclaré
WMT24++	84,3 %	5ᵉ / 23	llm-stats	Auto-déclaré
Video-MME	84,2 %	8ᵉ / 17	llm-stats	Auto-déclaré
VideoMMMU	84,0 %	10ᵉ / 26	llm-stats	Auto-déclaré
IMO-AnswerBench	83,8 %	9ᵉ / 18	llm-stats	Auto-déclaré
CC-OCR	83,4 %	1ᵉ / 18	llm-stats	Auto-déclaré
MMStar	83,3 %	1ᵉ / 22	llm-stats	Auto-déclaré
CharXiv-R	81,5 %	12ᵉ / 42	llm-stats	Auto-déclaré
MMMU-Pro	78,8 %	13ᵉ / 60	llm-stats	Auto-déclaré
SWE-Bench Verified	78,8 %	17ᵉ / 100	llm-stats	Auto-déclaré
PolyMATH	77,4 %	3ᵉ / 23	llm-stats	Auto-déclaré
WideSearch	74,3 %	3ᵉ / 8	llm-stats	Auto-déclaré
IFBench	74,2 %	10ᵉ / 27	llm-stats	Auto-déclaré
MCP Atlas	74,1 %	11ᵉ / 27	llm-stats	Auto-déclaré
SWE-bench Multilingual	73,8 %	9ᵉ / 32	llm-stats	Auto-déclaré
SuperGPQA	71,6 %	2ᵉ / 34	llm-stats	Auto-déclaré
LiveBench	70,9 %	28ᵉ / 38	llm-stats	n.d.
TAU3-Bench	70,7 %	2ᵉ / 5	llm-stats	Auto-déclaré
AA-LCR	68,3 %	4ᵉ / 14	llm-stats	Auto-déclaré
ScreenSpot Pro	68,2 %	10ᵉ / 23	llm-stats	Auto-déclaré
SimpleVQA	67,3 %	7ᵉ / 13	llm-stats	Auto-déclaré
ERQA	65,7 %	4ᵉ / 22	llm-stats	Auto-déclaré
OSWorld-Verified	62,5 %	13ᵉ / 17	llm-stats	Auto-déclaré
LongBench v2	62,0 %	2ᵉ / 15	llm-stats	Auto-déclaré
MMLongBench-Doc	62,0 %	1ᵉ / 5	llm-stats	Auto-déclaré
Terminal-Bench 2.0	61,6 %	18ᵉ / 48	llm-stats	Auto-déclaré
TIR-Bench	61,6 %	1ᵉ / 4	llm-stats	Auto-déclaré
Claw-Eval	58,7 %	10ᵉ / 12	llm-stats	Auto-déclaré
NOVA-63	57,9 %	6ᵉ / 11	llm-stats	Auto-déclaré
SWE-Bench Pro	56,6 %	17ᵉ / 34	llm-stats	Auto-déclaré
ODinW	51,8 %	1ᵉ / 16	llm-stats	Auto-déclaré
MCP-Mark	48,2 %	5ᵉ / 8	llm-stats	Auto-déclaré
SkillsBench	45,7 %	4ᵉ / 5	llm-stats	Auto-déclaré
VITA-Bench	44,3 %	4ᵉ / 10	llm-stats	Auto-déclaré
DeepPlanning	41,5 %	2ᵉ / 9	llm-stats	Auto-déclaré
Finance Agent v2	40,8 %	15ᵉ / 25	llm-stats	n.d.
Toolathlon	39,8 %	17ᵉ / 23	llm-stats	Auto-déclaré
GDPval-AA	38,7 %	21ᵉ / 33	llm-stats	n.d.
NL2Repo	37,9 %	9ᵉ / 11	llm-stats	Auto-déclaré
Humanity's Last Exam	28,8 %	39ᵉ / 86	llm-stats	Auto-déclaré
FrontierSWE	22,0 %	13ᵉ / 13	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Grok Build 0.1 061639.8

▶ Qwen3.6 Plus39.6

Nemotron 3 Ultra 550B A…37.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

DeepSeek V4 Pro59.4

▶ Qwen3.6 Plus54.5

Grok Build 0.1 061651.5

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Image-to-Code	1467	11ᵉ
Arena Code	1462	23ᵉ
Arena Text	1444	56ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,325 $	1,95 $	n.d.
together	0,5 $	3 $	n.d.
artificialanalysis	0,5 $	3 $	0,05 $

Prix en dollars US par million de tokens.

Sa tarification se situe 83 % en dessous de la moyenne des LLM similaires, et 14,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	11,86 $
Durée d'exécution — PinchBench	4 h 57 min
Indice valeur/coût — PinchBench	12,32

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	China

Notre analyse

Forces. Qwen3.6 Plus affiche un profil particulièrement compétitif en programmation. Ses résultats LiveBench: Coding et Arena image-to-code le placent dans une zone forte, avec un avantage concret pour la génération et la transformation de code. Les scores en mathématiques et en sciences sont également élevés, notamment sur OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) et GPQA diamond (questions scientifiques niveau doctorat). À sa sortie, il figurait dans le top 21% des LLM de sa génération sur GPQA diamond, ce qui le situe dans le haut du panier de son époque. Sa grande fenêtre de contexte renforce son intérêt pour l’analyse de corpus volumineux, tandis que son tarif très économique en fait un modèle attractif pour des usages à fort volume.

Limites et points d'attention. Le modèle est moins homogène sur les tâches textuelles générales: Arena text le classe nettement plus bas que ses résultats en code, et LiveBench: Language ainsi que LiveBench: Reasoning le situent davantage dans une zone intermédiaire. L’Agentic Index indique aussi un comportement agentique correct, mais moins différenciant que ses capacités en programmation. La licence propriétaire limite l’accès aux poids et réduit la transparence technique disponible hors API ou offre commerciale. Qwen3.6 Plus convient surtout aux projets sensibles au coût qui combinent code, mathématiques et longs contextes, avec une exigence de performance élevée mais pas nécessairement au niveau des modèles haut de gamme.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com).