Qwen3.6 Plus

Qwen3.6 Plus est un LLM propriétaire de Qwen, sorti le 31 mars 2026 et originaire de Chine. Le modèle se distingue par une fenêtre de contexte très étendue de 1 000 000 tokens, adaptée aux traitements de documents longs et aux tâches nécessitant beaucoup d’historique.

Qwen3.6 Plus est un LLM propriétaire de Qwen, sorti le 31 mars 2026 et originaire de Chine. Le modèle se distingue par une fenêtre de contexte très étendue de 1 000 000 tokens, adaptée aux traitements de documents longs et aux tâches nécessitant beaucoup d’historique.

Son positionnement le plus net associe performances solides et coût très bas. La tarification annoncée le place 83% sous la moyenne des LLM similaires et environ 14,9 fois moins cher que les modèles frontière, avec des poids non ouverts.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceProprietary (poids non ouverts)
Date de sortie31 mars 2026
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index39.624ᵉ / 136
Code Index54.523ᵉ / 50
Agentic Index27.620ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: OTIS Mock AIME 2024-202590,6 %22ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond87,4 %23ᵉ / 132epoch✅ Mesuré
LiveBench: Mathematics83,7 %26ᵉ / 76livebench✅ Mesuré
LiveBench: Coding78,2 %13ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning75,8 %28ᵉ / 76livebench✅ Mesuré
LiveBench: Language75,0 %32ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)72,5 %23ᵉ / 52pinchbench✅ Mesuré
LiveBench: Global average70,9 %22ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis69,9 %20ᵉ / 76livebench✅ Mesuré
LiveBench: IF58,3 %36ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified57,9 %29ᵉ / 32epoch✅ Mesuré
LiveBench: Agentic Coding55,0 %15ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public50,0 %16ᵉ / 64epoch✅ Mesuré
Epoch: SimpleQA Verified49,1 %18ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private26,2 %23ᵉ / 69epoch✅ Mesuré
Epoch: Chess Puzzles16,2 %34ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private8,3 %21ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
CountBench97,6 %4ᵉ / 6llm-statsAuto-déclaré
V*96,9 %1ᵉ / 7llm-statsAuto-déclaré
HMMT 202596,7 %5ᵉ / 33llm-statsAuto-déclaré
AIME 202695,3 %3ᵉ / 17llm-statsAuto-déclaré
HMMT2594,6 %2ᵉ / 25llm-statsAuto-déclaré
MMLU-Redux94,5 %3ᵉ / 48llm-statsAuto-déclaré
AI2D94,4 %2ᵉ / 32llm-statsAuto-déclaré
IFEval94,3 %3ᵉ / 65llm-statsAuto-déclaré
RefCOCO-avg93,5 %1ᵉ / 7llm-statsAuto-déclaré
C-Eval93,3 %1ᵉ / 18llm-statsAuto-déclaré
OmniDocBench 1.591,2 %3ᵉ / 13llm-statsAuto-déclaré
GPQA90,4 %14ᵉ / 213llm-statsAuto-déclaré
Global PIQA89,8 %5ᵉ / 13llm-statsAuto-déclaré
MMMLU89,5 %10ᵉ / 49llm-statsAuto-déclaré
MMLU-Pro88,5 %2ᵉ / 125llm-statsAuto-déclaré
MAXIFE88,2 %3ᵉ / 11llm-statsAuto-déclaré
DynaMath88,0 %1ᵉ / 7llm-statsAuto-déclaré
MathVision88,0 %5ᵉ / 31llm-statsAuto-déclaré
HMMT Feb 2687,8 %7ᵉ / 11llm-statsAuto-déclaré
LiveCodeBench v687,1 %7ᵉ / 53llm-statsAuto-déclaré
MLVU86,7 %3ᵉ / 10llm-statsAuto-déclaré
MMMU86,0 %1ᵉ / 61llm-statsAuto-déclaré
RealWorldQA85,4 %4ᵉ / 25llm-statsAuto-déclaré
Include85,1 %4ᵉ / 31llm-statsAuto-déclaré
MMLU-ProX84,7 %3ᵉ / 32llm-statsAuto-déclaré
WMT24++84,3 %5ᵉ / 23llm-statsAuto-déclaré
Video-MME84,2 %8ᵉ / 17llm-statsAuto-déclaré
VideoMMMU84,0 %10ᵉ / 26llm-statsAuto-déclaré
IMO-AnswerBench83,8 %9ᵉ / 18llm-statsAuto-déclaré
CC-OCR83,4 %1ᵉ / 18llm-statsAuto-déclaré
MMStar83,3 %1ᵉ / 22llm-statsAuto-déclaré
CharXiv-R81,5 %12ᵉ / 42llm-statsAuto-déclaré
MMMU-Pro78,8 %13ᵉ / 60llm-statsAuto-déclaré
SWE-Bench Verified78,8 %17ᵉ / 100llm-statsAuto-déclaré
PolyMATH77,4 %3ᵉ / 23llm-statsAuto-déclaré
WideSearch74,3 %3ᵉ / 8llm-statsAuto-déclaré
IFBench74,2 %10ᵉ / 27llm-statsAuto-déclaré
MCP Atlas74,1 %11ᵉ / 27llm-statsAuto-déclaré
SWE-bench Multilingual73,8 %9ᵉ / 32llm-statsAuto-déclaré
SuperGPQA71,6 %2ᵉ / 34llm-statsAuto-déclaré
LiveBench70,9 %28ᵉ / 38llm-statsn.d.
TAU3-Bench70,7 %2ᵉ / 5llm-statsAuto-déclaré
AA-LCR68,3 %4ᵉ / 14llm-statsAuto-déclaré
ScreenSpot Pro68,2 %10ᵉ / 23llm-statsAuto-déclaré
SimpleVQA67,3 %7ᵉ / 13llm-statsAuto-déclaré
ERQA65,7 %4ᵉ / 22llm-statsAuto-déclaré
OSWorld-Verified62,5 %13ᵉ / 17llm-statsAuto-déclaré
LongBench v262,0 %2ᵉ / 15llm-statsAuto-déclaré
MMLongBench-Doc62,0 %1ᵉ / 5llm-statsAuto-déclaré
Terminal-Bench 2.061,6 %18ᵉ / 48llm-statsAuto-déclaré
TIR-Bench61,6 %1ᵉ / 4llm-statsAuto-déclaré
Claw-Eval58,7 %10ᵉ / 12llm-statsAuto-déclaré
NOVA-6357,9 %6ᵉ / 11llm-statsAuto-déclaré
SWE-Bench Pro56,6 %17ᵉ / 34llm-statsAuto-déclaré
ODinW51,8 %1ᵉ / 16llm-statsAuto-déclaré
MCP-Mark48,2 %5ᵉ / 8llm-statsAuto-déclaré
SkillsBench45,7 %4ᵉ / 5llm-statsAuto-déclaré
VITA-Bench44,3 %4ᵉ / 10llm-statsAuto-déclaré
DeepPlanning41,5 %2ᵉ / 9llm-statsAuto-déclaré
Finance Agent v240,8 %15ᵉ / 25llm-statsn.d.
Toolathlon39,8 %17ᵉ / 23llm-statsAuto-déclaré
GDPval-AA38,7 %21ᵉ / 33llm-statsn.d.
NL2Repo37,9 %9ᵉ / 11llm-statsAuto-déclaré
Humanity's Last Exam28,8 %39ᵉ / 86llm-statsAuto-déclaré
FrontierSWE22,0 %13ᵉ / 13llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Grok Build 0.1 061639.8
▶ Qwen3.6 Plus39.6
Nemotron 3 Ultra 550B A…37.8

Code Index

▶ Qwen3.6 Plus54.5
Grok Build 0.1 061651.5

Classements Arena (Elo)

CatégorieEloRang
Arena Image-to-Code146711ᵉ
Arena Code146223ᵉ
Arena Text144456ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,325 $1,95 $n.d.
together0,5 $3 $n.d.
artificialanalysis0,5 $3 $0,05 $

Prix en dollars US par million de tokens.

Sa tarification se situe 83 % en dessous de la moyenne des LLM similaires, et 14,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)11,86 $
Durée d'exécution — PinchBench4 h 57 min
Indice valeur/coût — PinchBench12,32

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysChina

Notre analyse

Forces. Qwen3.6 Plus affiche un profil particulièrement compétitif en programmation. Ses résultats LiveBench: Coding et Arena image-to-code le placent dans une zone forte, avec un avantage concret pour la génération et la transformation de code. Les scores en mathématiques et en sciences sont également élevés, notamment sur OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) et GPQA diamond (questions scientifiques niveau doctorat). À sa sortie, il figurait dans le top 21% des LLM de sa génération sur GPQA diamond, ce qui le situe dans le haut du panier de son époque. Sa grande fenêtre de contexte renforce son intérêt pour l’analyse de corpus volumineux, tandis que son tarif très économique en fait un modèle attractif pour des usages à fort volume.

Limites et points d'attention. Le modèle est moins homogène sur les tâches textuelles générales: Arena text le classe nettement plus bas que ses résultats en code, et LiveBench: Language ainsi que LiveBench: Reasoning le situent davantage dans une zone intermédiaire. L’Agentic Index indique aussi un comportement agentique correct, mais moins différenciant que ses capacités en programmation. La licence propriétaire limite l’accès aux poids et réduit la transparence technique disponible hors API ou offre commerciale. Qwen3.6 Plus convient surtout aux projets sensibles au coût qui combinent code, mathématiques et longs contextes, avec une exigence de performance élevée mais pas nécessairement au niveau des modèles haut de gamme.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com).