Qwen3.5-397B-A17B

Qwen3.5-397B-A17B est un LLM open-weights de Qwen, publié le 16 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son profil combine une très grande taille totale, 397 milliards de paramètres, et seulement 17 milliards de paramètres actifs, avec une fenêtre de contexte…

Qwen3.5-397B-A17B est un LLM open-weights de Qwen, publié le 16 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son profil combine une très grande taille totale, 397 milliards de paramètres, et seulement 17 milliards de paramètres actifs, avec une fenêtre de contexte étendue à 262 144 tokens.

Le modèle se positionne surtout comme une option très économique : ses tarifs sont annoncés 80% sous la moyenne des LLM similaires et environ 12,6 fois inférieurs à ceux des modèles frontière. À sa sortie, il se situait dans le top 5% sur GPQA parmi les LLM de sa génération.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie16 février 2026
Multimodaloui
Paramètres397 milliards
Paramètres actifs17 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index33.749ᵉ / 136
Code Index48.227ᵉ / 50
Agentic Index19.830ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)92,9 %77ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)87,8 %21ᵉ / 252benchable✅ Mesuré
MMLU-Redux94,9 %2ᵉ / 48llm-statsAuto-déclaré
HMMT 202594,8 %7ᵉ / 33llm-statsAuto-déclaré
C-Eval93,0 %2ᵉ / 18llm-statsAuto-déclaré
HMMT2592,7 %3ᵉ / 25llm-statsAuto-déclaré
IFEval92,6 %8ᵉ / 65llm-statsAuto-déclaré
AIME 202691,3 %10ᵉ / 17llm-statsAuto-déclaré
Global PIQA89,8 %5ᵉ / 13llm-statsAuto-déclaré
MMMLU88,5 %17ᵉ / 49llm-statsAuto-déclaré
GPQA88,4 %21ᵉ / 213llm-statsAuto-déclaré
MAXIFE88,2 %3ᵉ / 11llm-statsAuto-déclaré
MMLU-Pro87,8 %5ᵉ / 125llm-statsAuto-déclaré
t2-bench86,7 %4ᵉ / 23llm-statsAuto-déclaré
Include85,6 %3ᵉ / 31llm-statsAuto-déclaré
MMLU-ProX84,7 %3ᵉ / 32llm-statsAuto-déclaré
LiveCodeBench v683,6 %12ᵉ / 53llm-statsAuto-déclaré
IMO-AnswerBench80,9 %13ᵉ / 18llm-statsAuto-déclaré
WMT24++78,9 %8ᵉ / 23llm-statsAuto-déclaré
IFBench76,5 %6ᵉ / 27llm-statsAuto-déclaré
SWE-Bench Verified76,4 %27ᵉ / 100llm-statsAuto-déclaré
WideSearch74,0 %4ᵉ / 8llm-statsAuto-déclaré
PolyMATH73,3 %4ᵉ / 23llm-statsAuto-déclaré
BFCL-V472,9 %2ᵉ / 13llm-statsAuto-déclaré
SuperGPQA70,4 %5ᵉ / 34llm-statsAuto-déclaré
BrowseComp-zh70,3 %1ᵉ / 13llm-statsAuto-déclaré
SWE-bench Multilingual69,3 %18ᵉ / 32llm-statsAuto-déclaré
BrowseComp69,0 %22ᵉ / 51llm-statsAuto-déclaré
AA-LCR68,7 %3ᵉ / 14llm-statsAuto-déclaré
Multi-Challenge67,6 %5ᵉ / 28llm-statsAuto-déclaré
LongBench v263,2 %1ᵉ / 15llm-statsAuto-déclaré
NOVA-6359,1 %1ᵉ / 11llm-statsAuto-déclaré
Terminal-Bench 2.052,5 %31ᵉ / 48llm-statsAuto-déclaré
VITA-Bench49,7 %1ᵉ / 10llm-statsAuto-déclaré
Seal-046,9 %4ᵉ / 6llm-statsAuto-déclaré
MCP-Mark46,1 %6ᵉ / 8llm-statsAuto-déclaré
Toolathlon38,3 %18ᵉ / 23llm-statsAuto-déclaré
DeepPlanning34,3 %3ᵉ / 9llm-statsAuto-déclaré
GDPval-AA32,0 %29ᵉ / 33llm-statsn.d.
Humanity's Last Exam28,7 %40ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nemotron 3 Ultra 550B A…37.8
▶ Qwen3.5-397B-A17B33.7

Code Index

Nemotron 3 Ultra 550B A…49.3
▶ Qwen3.5-397B-A17B48.2

Classements Arena (Elo)

CatégorieEloRang
Arena Text144358ᵉ
Arena Code139542ᵉ
Arena Vision124828ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DigitalOcean0,385 $2,45 $n.d.
artificialanalysis0,6 $3,6 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 80 % en dessous de la moyenne des LLM similaires, et 12,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,81 $
Latence moyenne par benchmark — Benchable1 h 33 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysChina

Notre analyse

Forces. Qwen3.5-397B-A17B ressort particulièrement sur les tâches Benchable de connaissances générales, de classification d’e-mails et d’éthique, où il atteint le top 10. Ses résultats en raisonnement et en mathématiques restent solides, ce qui indique un modèle capable de traiter des tâches structurées plutôt qu’un simple assistant conversationnel généraliste. Le Code Index le place dans une zone compétitive de son panel, et son Arena Code confirme un niveau utile pour les usages de programmation. Sa très longue fenêtre de contexte constitue aussi un atout concret pour l’analyse de documents volumineux, de bases de connaissances ou de conversations longues.

Limites et points d'attention. L’Intelligence Index le situe plutôt en milieu haut de tableau, sans le placer au niveau des meilleurs modèles généralistes. L’Agentic Index est nettement moins favorable, ce qui invite à la prudence pour les scénarios d’agents autonomes, de planification longue ou d’enchaînement d’actions. Le benchmark Hallucinations reste moins distinctif en rang relatif que ses meilleurs scores Benchable, malgré un résultat élevé. Les classements Arena text et Arena vision indiquent aussi un positionnement honorable, mais pas dominant. Qwen3.5-397B-A17B convient surtout aux déploiements sensibles au coût, nécessitant open-weights, usage commercial et long contexte, avec des attentes mesurées sur l’autonomie agentique.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).