Qwen

Qwen3.5-35B-A3B

Qwen3.5-35B-A3B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son format associe 35 milliards de paramètres à 3 milliards de paramètres actifs, un choix qui le place dans la catégorie des modèles compacts à activation…

Sa fenêtre de contexte de 262 144 tokens et son tarif très bas sont ses marqueurs les plus visibles: le coût annoncé est 93% inférieur à la moyenne des LLM similaires et environ 34,5 fois inférieur à celui des modèles frontière. À sa sortie, il se situait dans le top 18% sur GPQA parmi les LLM de sa génération, avec cinq sources de données concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	24 février 2026
Multimodal	oui
Paramètres	35 milliards
Paramètres actifs	3 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	29.3	69ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	74,7 %	74ᵉ / 252	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	0,0 %	237ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	0,0 %	232ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	0,0 %	236ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	0,0 %	206ᵉ / 217	benchable	✅ Mesuré
CountBench	97,8 %	1ᵉ / 6	llm-stats	Auto-déclaré
VLMsAreBlind	97,0 %	1ᵉ / 4	llm-stats	Auto-déclaré
MMLU-Redux	93,3 %	11ᵉ / 48	llm-stats	Auto-déclaré
V*	92,7 %	6ᵉ / 7	llm-stats	Auto-déclaré
AI2D	92,6 %	9ᵉ / 32	llm-stats	Auto-déclaré
IFEval	91,9 %	11ᵉ / 65	llm-stats	Auto-déclaré
MMBench-V1.1	91,5 %	5ᵉ / 18	llm-stats	Auto-déclaré
OCRBench	91,0 %	4ᵉ / 22	llm-stats	Auto-déclaré
C-Eval	90,2 %	8ᵉ / 18	llm-stats	Auto-déclaré
OmniDocBench 1.5	89,3 %	6ᵉ / 13	llm-stats	Auto-déclaré
HMMT25	89,2 %	8ᵉ / 25	llm-stats	Auto-déclaré
RefCOCO-avg	89,2 %	7ᵉ / 7	llm-stats	Auto-déclaré
HMMT 2025	89,0 %	19ᵉ / 33	llm-stats	Auto-déclaré
Global PIQA	86,6 %	9ᵉ / 13	llm-stats	Auto-déclaré
MAXIFE	86,6 %	7ᵉ / 11	llm-stats	Auto-déclaré
VideoMME w sub.	86,6 %	5ᵉ / 9	llm-stats	Auto-déclaré
MathVista-Mini	86,2 %	6ᵉ / 23	llm-stats	Auto-déclaré
MLVU	85,6 %	7ᵉ / 10	llm-stats	Auto-déclaré
MMLU-Pro	85,3 %	14ᵉ / 125	llm-stats	Auto-déclaré
MMMLU	85,2 %	32ᵉ / 49	llm-stats	Auto-déclaré
DynaMath	85,0 %	5ᵉ / 7	llm-stats	Auto-déclaré
GPQA	84,2 %	48ᵉ / 213	llm-stats	Auto-déclaré
RealWorldQA	84,1 %	7ᵉ / 25	llm-stats	Auto-déclaré
MathVision	83,9 %	10ᵉ / 31	llm-stats	Auto-déclaré
EmbSpatialBench	83,1 %	7ᵉ / 8	llm-stats	Auto-déclaré
VideoMME w/o sub.	82,5 %	3ᵉ / 10	llm-stats	Auto-déclaré
CodeForces	82,2 %	5ᵉ / 16	llm-stats	Auto-déclaré
MMStar	81,9 %	3ᵉ / 22	llm-stats	Auto-déclaré
MMMU	81,4 %	12ᵉ / 61	llm-stats	Auto-déclaré
t2-bench	81,2 %	8ᵉ / 23	llm-stats	Auto-déclaré
MMLU-ProX	81,0 %	8ᵉ / 32	llm-stats	Auto-déclaré
CC-OCR	80,7 %	8ᵉ / 18	llm-stats	Auto-déclaré
VideoMMMU	80,4 %	16ᵉ / 26	llm-stats	Auto-déclaré
Include	79,7 %	11ᵉ / 31	llm-stats	Auto-déclaré
LingoQA	79,2 %	4ᵉ / 4	llm-stats	Auto-déclaré
SlakeVQA	78,7 %	3ᵉ / 4	llm-stats	Auto-déclaré
CharXiv-R	77,5 %	21ᵉ / 42	llm-stats	Auto-déclaré
WMT24++	76,3 %	11ᵉ / 23	llm-stats	Auto-déclaré
MMMU-Pro	75,1 %	28ᵉ / 60	llm-stats	Auto-déclaré
MVBench	74,8 %	3ᵉ / 17	llm-stats	Auto-déclaré
LiveCodeBench v6	74,6 %	24ᵉ / 53	llm-stats	Auto-déclaré
MMVU	72,3 %	4ᵉ / 4	llm-stats	Auto-déclaré
LVBench	71,4 %	7ᵉ / 23	llm-stats	Auto-déclaré
AndroidWorld_SR	71,1 %	1ᵉ / 8	llm-stats	Auto-déclaré
IFBench	70,2 %	15ᵉ / 27	llm-stats	Auto-déclaré
BrowseComp-zh	69,5 %	3ᵉ / 13	llm-stats	Auto-déclaré
SWE-Bench Verified	69,2 %	60ᵉ / 100	llm-stats	Auto-déclaré
ScreenSpot Pro	68,6 %	9ᵉ / 23	llm-stats	Auto-déclaré
Hallusion Bench	67,9 %	3ᵉ / 16	llm-stats	Auto-déclaré
BFCL-V4	67,3 %	6ᵉ / 13	llm-stats	Auto-déclaré
ERQA	64,8 %	6ᵉ / 22	llm-stats	Auto-déclaré
PolyMATH	64,4 %	7ᵉ / 23	llm-stats	Auto-déclaré
RefSpatialBench	63,5 %	6ᵉ / 6	llm-stats	Auto-déclaré
SuperGPQA	63,4 %	14ᵉ / 34	llm-stats	Auto-déclaré
PMC-VQA	62,0 %	3ᵉ / 3	llm-stats	Auto-déclaré
MedXpertQA	61,4 %	4ᵉ / 12	llm-stats	Auto-déclaré
BrowseComp	61,0 %	27ᵉ / 51	llm-stats	Auto-déclaré
Multi-Challenge	60,0 %	11ᵉ / 28	llm-stats	Auto-déclaré
MMLongBench-Doc	59,5 %	3ᵉ / 5	llm-stats	Auto-déclaré
LongBench v2	59,0 %	10ᵉ / 15	llm-stats	Auto-déclaré
AA-LCR	58,5 %	10ᵉ / 14	llm-stats	Auto-déclaré
SimpleVQA	58,3 %	11ᵉ / 13	llm-stats	Auto-déclaré
FullStackBench en	58,1 %	3ᵉ / 3	llm-stats	Auto-déclaré
NOVA-63	57,1 %	7ᵉ / 11	llm-stats	Auto-déclaré
WideSearch	57,1 %	8ᵉ / 8	llm-stats	Auto-déclaré
TIR-Bench	55,5 %	3ᵉ / 4	llm-stats	Auto-déclaré
FullStackBench zh	55,0 %	3ᵉ / 3	llm-stats	Auto-déclaré
OSWorld-Verified	54,5 %	16ᵉ / 17	llm-stats	Auto-déclaré
Humanity's Last Exam	47,4 %	21ᵉ / 86	llm-stats	Auto-déclaré
ODinW	42,6 %	11ᵉ / 16	llm-stats	Auto-déclaré
Seal-0	41,4 %	6ᵉ / 6	llm-stats	Auto-déclaré
Terminal-Bench 2.0	40,5 %	44ᵉ / 48	llm-stats	Auto-déclaré
BabyVision	38,4 %	7ᵉ / 7	llm-stats	Auto-déclaré
OJBench	36,0 %	5ᵉ / 9	llm-stats	Auto-déclaré
ZEROBench-Sub	34,1 %	4ᵉ / 5	llm-stats	Auto-déclaré
SUNRGBD	33,4 %	4ᵉ / 4	llm-stats	Auto-déclaré
VITA-Bench	31,9 %	8ᵉ / 10	llm-stats	Auto-déclaré
DeepPlanning	22,8 %	6ᵉ / 9	llm-stats	Auto-déclaré
Nuscene	14,6 %	3ᵉ / 3	llm-stats	Auto-déclaré
Hypersim	13,1 %	1ᵉ / 4	llm-stats	Auto-déclaré
ZEROBench	8,0 %	7ᵉ / 8	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Qwen3.5-35B-A3B29.3

Nova 2.0 Pro Preview21.8

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Qwen3.5-35B-A3B99 %

WizardLM-2 8x22B95 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1396	124ᵉ
Arena Code	1249	76ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,14 $	1 $	0,05 $
artificialanalysis	0,25 $	2 $	0,25 $

Prix en dollars US par million de tokens.

Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 34,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,41 $
Latence moyenne par benchmark — Benchable	26 min 48 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3.5-35B-A3B se distingue surtout par son rapport capacité-prix: sa grande fenêtre de contexte et son faible nombre de paramètres actifs cadrent avec un usage économique sur de longs volumes de texte. Ses meilleurs résultats Benchable concernent Email Classification (Baseline) et Hallucinations (Baseline), deux tests où il apparaît dans une zone solide du classement. Instruction Following (Baseline) reste utilisable mais moins dominant. À sa sortie, son classement GPQA le plaçait dans le haut de sa génération, ce qui nuance son Intelligence Index global, plutôt médian. L'Arena code est plus favorable que l'Arena text, signe d'une réception comparative moins faible en code qu'en conversation générale.

Limites et points d'attention. Les faiblesses sont nettes sur General Knowledge (Baseline), Coding (Baseline) et Reasoning (Baseline), où les scores fournis sont nuls et les rangs proches du bas de tableau. Le modèle ne doit donc pas être présenté comme un généraliste robuste, ni comme un choix prioritaire pour le raisonnement complexe ou le développement logiciel exigeant. Son prix très inférieur aux modèles haut de gamme explique une partie de son intérêt, mais ne compense pas ces limites pour les tâches à forte exigence factuelle ou logique. Profil pertinent: classification d'e-mails, traitements textuels longs à coût contraint et scénarios où la licence Apache 2.0 et l'usage commercial autorisé priment sur la performance maximale.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Qwen3.5-35B-A3B

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast