Qwen

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B est un LLM open-weights de Qwen, publié le 16 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son profil combine une très grande taille totale, 397 milliards de paramètres, et seulement 17 milliards de paramètres actifs, avec une fenêtre de contexte…

Le modèle se positionne surtout comme une option très économique : ses tarifs sont annoncés 80% sous la moyenne des LLM similaires et environ 12,6 fois inférieurs à ceux des modèles frontière. À sa sortie, il se situait dans le top 5% sur GPQA parmi les LLM de sa génération.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	16 février 2026
Multimodal	oui
Paramètres	397 milliards
Paramètres actifs	17 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	33.7	49ᵉ / 136
Code Index	48.2	27ᵉ / 50
Agentic Index	19.8	30ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	92,9 %	77ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	87,8 %	21ᵉ / 252	benchable	✅ Mesuré
MMLU-Redux	94,9 %	2ᵉ / 48	llm-stats	Auto-déclaré
HMMT 2025	94,8 %	7ᵉ / 33	llm-stats	Auto-déclaré
C-Eval	93,0 %	2ᵉ / 18	llm-stats	Auto-déclaré
HMMT25	92,7 %	3ᵉ / 25	llm-stats	Auto-déclaré
IFEval	92,6 %	8ᵉ / 65	llm-stats	Auto-déclaré
AIME 2026	91,3 %	10ᵉ / 17	llm-stats	Auto-déclaré
Global PIQA	89,8 %	5ᵉ / 13	llm-stats	Auto-déclaré
MMMLU	88,5 %	17ᵉ / 49	llm-stats	Auto-déclaré
GPQA	88,4 %	21ᵉ / 213	llm-stats	Auto-déclaré
MAXIFE	88,2 %	3ᵉ / 11	llm-stats	Auto-déclaré
MMLU-Pro	87,8 %	5ᵉ / 125	llm-stats	Auto-déclaré
t2-bench	86,7 %	4ᵉ / 23	llm-stats	Auto-déclaré
Include	85,6 %	3ᵉ / 31	llm-stats	Auto-déclaré
MMLU-ProX	84,7 %	3ᵉ / 32	llm-stats	Auto-déclaré
LiveCodeBench v6	83,6 %	12ᵉ / 53	llm-stats	Auto-déclaré
IMO-AnswerBench	80,9 %	13ᵉ / 18	llm-stats	Auto-déclaré
WMT24++	78,9 %	8ᵉ / 23	llm-stats	Auto-déclaré
IFBench	76,5 %	6ᵉ / 27	llm-stats	Auto-déclaré
SWE-Bench Verified	76,4 %	27ᵉ / 100	llm-stats	Auto-déclaré
WideSearch	74,0 %	4ᵉ / 8	llm-stats	Auto-déclaré
PolyMATH	73,3 %	4ᵉ / 23	llm-stats	Auto-déclaré
BFCL-V4	72,9 %	2ᵉ / 13	llm-stats	Auto-déclaré
SuperGPQA	70,4 %	5ᵉ / 34	llm-stats	Auto-déclaré
BrowseComp-zh	70,3 %	1ᵉ / 13	llm-stats	Auto-déclaré
SWE-bench Multilingual	69,3 %	18ᵉ / 32	llm-stats	Auto-déclaré
BrowseComp	69,0 %	22ᵉ / 51	llm-stats	Auto-déclaré
AA-LCR	68,7 %	3ᵉ / 14	llm-stats	Auto-déclaré
Multi-Challenge	67,6 %	5ᵉ / 28	llm-stats	Auto-déclaré
LongBench v2	63,2 %	1ᵉ / 15	llm-stats	Auto-déclaré
NOVA-63	59,1 %	1ᵉ / 11	llm-stats	Auto-déclaré
Terminal-Bench 2.0	52,5 %	31ᵉ / 48	llm-stats	Auto-déclaré
VITA-Bench	49,7 %	1ᵉ / 10	llm-stats	Auto-déclaré
Seal-0	46,9 %	4ᵉ / 6	llm-stats	Auto-déclaré
MCP-Mark	46,1 %	6ᵉ / 8	llm-stats	Auto-déclaré
Toolathlon	38,3 %	18ᵉ / 23	llm-stats	Auto-déclaré
DeepPlanning	34,3 %	3ᵉ / 9	llm-stats	Auto-déclaré
GDPval-AA	32,0 %	29ᵉ / 33	llm-stats	n.d.
Humanity's Last Exam	28,7 %	40ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nemotron 3 Ultra 550B A…37.8

▶ Qwen3.5-397B-A17B33.7

Mistral Medium 3.529.9

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Nemotron 3 Ultra 550B A…49.3

▶ Qwen3.5-397B-A17B48.2

Mistral Medium 3.546.9

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1443	58ᵉ
Arena Code	1395	42ᵉ
Arena Vision	1248	28ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DigitalOcean	0,385 $	2,45 $	n.d.
artificialanalysis	0,6 $	3,6 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 80 % en dessous de la moyenne des LLM similaires, et 12,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,81 $
Latence moyenne par benchmark — Benchable	1 h 33 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	China

Notre analyse

Forces. Qwen3.5-397B-A17B ressort particulièrement sur les tâches Benchable de connaissances générales, de classification d’e-mails et d’éthique, où il atteint le top 10. Ses résultats en raisonnement et en mathématiques restent solides, ce qui indique un modèle capable de traiter des tâches structurées plutôt qu’un simple assistant conversationnel généraliste. Le Code Index le place dans une zone compétitive de son panel, et son Arena Code confirme un niveau utile pour les usages de programmation. Sa très longue fenêtre de contexte constitue aussi un atout concret pour l’analyse de documents volumineux, de bases de connaissances ou de conversations longues.

Limites et points d'attention. L’Intelligence Index le situe plutôt en milieu haut de tableau, sans le placer au niveau des meilleurs modèles généralistes. L’Agentic Index est nettement moins favorable, ce qui invite à la prudence pour les scénarios d’agents autonomes, de planification longue ou d’enchaînement d’actions. Le benchmark Hallucinations reste moins distinctif en rang relatif que ses meilleurs scores Benchable, malgré un résultat élevé. Les classements Arena text et Arena vision indiquent aussi un positionnement honorable, mais pas dominant. Qwen3.5-397B-A17B convient surtout aux déploiements sensibles au coût, nécessitant open-weights, usage commercial et long contexte, avec des attentes mesurées sur l’autonomie agentique.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).