Qwen3.5-35B-A3B

Qwen3.5-35B-A3B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son format associe 35 milliards de paramètres à 3 milliards de paramètres actifs, un choix qui le place dans la catégorie des modèles compacts à activation…

Qwen3.5-35B-A3B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son format associe 35 milliards de paramètres à 3 milliards de paramètres actifs, un choix qui le place dans la catégorie des modèles compacts à activation partielle plutôt que dans celle des modèles denses haut de gamme.

Sa fenêtre de contexte de 262 144 tokens et son tarif très bas sont ses marqueurs les plus visibles: le coût annoncé est 93% inférieur à la moyenne des LLM similaires et environ 34,5 fois inférieur à celui des modèles frontière. À sa sortie, il se situait dans le top 18% sur GPQA parmi les LLM de sa génération, avec cinq sources de données concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie24 février 2026
Multimodaloui
Paramètres35 milliards
Paramètres actifs3 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index29.369ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)74,7 %74ᵉ / 252benchable✅ Mesuré
Benchable : General Knowledge (Baseline)0,0 %238ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)0,0 %237ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)0,0 %232ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)0,0 %236ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)0,0 %206ᵉ / 217benchable✅ Mesuré
CountBench97,8 %1ᵉ / 6llm-statsAuto-déclaré
VLMsAreBlind97,0 %1ᵉ / 4llm-statsAuto-déclaré
MMLU-Redux93,3 %11ᵉ / 48llm-statsAuto-déclaré
V*92,7 %6ᵉ / 7llm-statsAuto-déclaré
AI2D92,6 %9ᵉ / 32llm-statsAuto-déclaré
IFEval91,9 %11ᵉ / 65llm-statsAuto-déclaré
MMBench-V1.191,5 %5ᵉ / 18llm-statsAuto-déclaré
OCRBench91,0 %4ᵉ / 22llm-statsAuto-déclaré
C-Eval90,2 %8ᵉ / 18llm-statsAuto-déclaré
OmniDocBench 1.589,3 %6ᵉ / 13llm-statsAuto-déclaré
HMMT2589,2 %8ᵉ / 25llm-statsAuto-déclaré
RefCOCO-avg89,2 %7ᵉ / 7llm-statsAuto-déclaré
HMMT 202589,0 %19ᵉ / 33llm-statsAuto-déclaré
Global PIQA86,6 %9ᵉ / 13llm-statsAuto-déclaré
MAXIFE86,6 %7ᵉ / 11llm-statsAuto-déclaré
VideoMME w sub.86,6 %5ᵉ / 9llm-statsAuto-déclaré
MathVista-Mini86,2 %6ᵉ / 23llm-statsAuto-déclaré
MLVU85,6 %7ᵉ / 10llm-statsAuto-déclaré
MMLU-Pro85,3 %14ᵉ / 125llm-statsAuto-déclaré
MMMLU85,2 %32ᵉ / 49llm-statsAuto-déclaré
DynaMath85,0 %5ᵉ / 7llm-statsAuto-déclaré
GPQA84,2 %48ᵉ / 213llm-statsAuto-déclaré
RealWorldQA84,1 %7ᵉ / 25llm-statsAuto-déclaré
MathVision83,9 %10ᵉ / 31llm-statsAuto-déclaré
EmbSpatialBench83,1 %7ᵉ / 8llm-statsAuto-déclaré
VideoMME w/o sub.82,5 %3ᵉ / 10llm-statsAuto-déclaré
CodeForces82,2 %5ᵉ / 16llm-statsAuto-déclaré
MMStar81,9 %3ᵉ / 22llm-statsAuto-déclaré
MMMU81,4 %12ᵉ / 61llm-statsAuto-déclaré
t2-bench81,2 %8ᵉ / 23llm-statsAuto-déclaré
MMLU-ProX81,0 %8ᵉ / 32llm-statsAuto-déclaré
CC-OCR80,7 %8ᵉ / 18llm-statsAuto-déclaré
VideoMMMU80,4 %16ᵉ / 26llm-statsAuto-déclaré
Include79,7 %11ᵉ / 31llm-statsAuto-déclaré
LingoQA79,2 %4ᵉ / 4llm-statsAuto-déclaré
SlakeVQA78,7 %3ᵉ / 4llm-statsAuto-déclaré
CharXiv-R77,5 %21ᵉ / 42llm-statsAuto-déclaré
WMT24++76,3 %11ᵉ / 23llm-statsAuto-déclaré
MMMU-Pro75,1 %28ᵉ / 60llm-statsAuto-déclaré
MVBench74,8 %3ᵉ / 17llm-statsAuto-déclaré
LiveCodeBench v674,6 %24ᵉ / 53llm-statsAuto-déclaré
MMVU72,3 %4ᵉ / 4llm-statsAuto-déclaré
LVBench71,4 %7ᵉ / 23llm-statsAuto-déclaré
AndroidWorld_SR71,1 %1ᵉ / 8llm-statsAuto-déclaré
IFBench70,2 %15ᵉ / 27llm-statsAuto-déclaré
BrowseComp-zh69,5 %3ᵉ / 13llm-statsAuto-déclaré
SWE-Bench Verified69,2 %60ᵉ / 100llm-statsAuto-déclaré
ScreenSpot Pro68,6 %9ᵉ / 23llm-statsAuto-déclaré
Hallusion Bench67,9 %3ᵉ / 16llm-statsAuto-déclaré
BFCL-V467,3 %6ᵉ / 13llm-statsAuto-déclaré
ERQA64,8 %6ᵉ / 22llm-statsAuto-déclaré
PolyMATH64,4 %7ᵉ / 23llm-statsAuto-déclaré
RefSpatialBench63,5 %6ᵉ / 6llm-statsAuto-déclaré
SuperGPQA63,4 %14ᵉ / 34llm-statsAuto-déclaré
PMC-VQA62,0 %3ᵉ / 3llm-statsAuto-déclaré
MedXpertQA61,4 %4ᵉ / 12llm-statsAuto-déclaré
BrowseComp61,0 %27ᵉ / 51llm-statsAuto-déclaré
Multi-Challenge60,0 %11ᵉ / 28llm-statsAuto-déclaré
MMLongBench-Doc59,5 %3ᵉ / 5llm-statsAuto-déclaré
LongBench v259,0 %10ᵉ / 15llm-statsAuto-déclaré
AA-LCR58,5 %10ᵉ / 14llm-statsAuto-déclaré
SimpleVQA58,3 %11ᵉ / 13llm-statsAuto-déclaré
FullStackBench en58,1 %3ᵉ / 3llm-statsAuto-déclaré
NOVA-6357,1 %7ᵉ / 11llm-statsAuto-déclaré
WideSearch57,1 %8ᵉ / 8llm-statsAuto-déclaré
TIR-Bench55,5 %3ᵉ / 4llm-statsAuto-déclaré
FullStackBench zh55,0 %3ᵉ / 3llm-statsAuto-déclaré
OSWorld-Verified54,5 %16ᵉ / 17llm-statsAuto-déclaré
Humanity's Last Exam47,4 %21ᵉ / 86llm-statsAuto-déclaré
ODinW42,6 %11ᵉ / 16llm-statsAuto-déclaré
Seal-041,4 %6ᵉ / 6llm-statsAuto-déclaré
Terminal-Bench 2.040,5 %44ᵉ / 48llm-statsAuto-déclaré
BabyVision38,4 %7ᵉ / 7llm-statsAuto-déclaré
OJBench36,0 %5ᵉ / 9llm-statsAuto-déclaré
ZEROBench-Sub34,1 %4ᵉ / 5llm-statsAuto-déclaré
SUNRGBD33,4 %4ᵉ / 4llm-statsAuto-déclaré
VITA-Bench31,9 %8ᵉ / 10llm-statsAuto-déclaré
DeepPlanning22,8 %6ᵉ / 9llm-statsAuto-déclaré
Nuscene14,6 %3ᵉ / 3llm-statsAuto-déclaré
Hypersim13,1 %1ᵉ / 4llm-statsAuto-déclaré
ZEROBench8,0 %7ᵉ / 8llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ Qwen3.5-35B-A3B29.3
Nova 2.0 Pro Preview21.8

Benchable : Email Classification (Baseline)

▶ Qwen3.5-35B-A3B99 %
WizardLM-2 8x22B95 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1396124ᵉ
Arena Code124976ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,14 $1 $0,05 $
artificialanalysis0,25 $2 $0,25 $

Prix en dollars US par million de tokens.

Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 34,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,41 $
Latence moyenne par benchmark — Benchable26 min 48 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3.5-35B-A3B se distingue surtout par son rapport capacité-prix: sa grande fenêtre de contexte et son faible nombre de paramètres actifs cadrent avec un usage économique sur de longs volumes de texte. Ses meilleurs résultats Benchable concernent Email Classification (Baseline) et Hallucinations (Baseline), deux tests où il apparaît dans une zone solide du classement. Instruction Following (Baseline) reste utilisable mais moins dominant. À sa sortie, son classement GPQA le plaçait dans le haut de sa génération, ce qui nuance son Intelligence Index global, plutôt médian. L'Arena code est plus favorable que l'Arena text, signe d'une réception comparative moins faible en code qu'en conversation générale.

Limites et points d'attention. Les faiblesses sont nettes sur General Knowledge (Baseline), Coding (Baseline) et Reasoning (Baseline), où les scores fournis sont nuls et les rangs proches du bas de tableau. Le modèle ne doit donc pas être présenté comme un généraliste robuste, ni comme un choix prioritaire pour le raisonnement complexe ou le développement logiciel exigeant. Son prix très inférieur aux modèles haut de gamme explique une partie de son intérêt, mais ne compense pas ces limites pour les tâches à forte exigence factuelle ou logique. Profil pertinent: classification d'e-mails, traitements textuels longs à coût contraint et scénarios où la licence Apache 2.0 et l'usage commercial autorisé priment sur la performance maximale.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).