Qwen

Qwen3.5-122B-A10B

Qwen3.5-122B-A10B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son profil combine une très grande fenêtre de contexte, 122 milliards de paramètres au total et seulement 10 milliards de paramètres actifs.

Le modèle se positionne surtout comme une option très économique : sa tarification est nettement inférieure à celle des LLM similaires et environ 18,6 fois plus basse que celle des modèles frontière. À sa sortie, il figurait dans le top 12% de sa génération sur GPQA.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	24 février 2026
Multimodal	oui
Paramètres	122 milliards
Paramètres actifs	10 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	32.3	55ᵉ / 136
Code Index	45.7	29ᵉ / 50
Agentic Index	20.7	29ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	75,0 %	68ᵉ / 252	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	0,0 %	237ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	0,0 %	232ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	0,0 %	236ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	0,0 %	206ᵉ / 217	benchable	✅ Mesuré
CountBench	97,0 %	5ᵉ / 6	llm-stats	Auto-déclaré
VLMsAreBlind	96,7 %	4ᵉ / 4	llm-stats	Auto-déclaré
MMLU-Redux	94,0 %	6ᵉ / 48	llm-stats	Auto-déclaré
IFEval	93,4 %	6ᵉ / 65	llm-stats	Auto-déclaré
AI2D	93,3 %	5ᵉ / 32	llm-stats	Auto-déclaré
V*	93,2 %	5ᵉ / 7	llm-stats	Auto-déclaré
MMBench-V1.1	92,8 %	1ᵉ / 18	llm-stats	Auto-déclaré
OCRBench	92,1 %	2ᵉ / 22	llm-stats	Auto-déclaré
C-Eval	91,9 %	4ᵉ / 18	llm-stats	Auto-déclaré
HMMT 2025	91,4 %	15ᵉ / 33	llm-stats	Auto-déclaré
RefCOCO-avg	91,3 %	5ᵉ / 7	llm-stats	Auto-déclaré
HMMT25	90,3 %	5ᵉ / 25	llm-stats	Auto-déclaré
OmniDocBench 1.5	89,8 %	5ᵉ / 13	llm-stats	Auto-déclaré
Global PIQA	88,4 %	7ᵉ / 13	llm-stats	Auto-déclaré
MAXIFE	87,9 %	6ᵉ / 11	llm-stats	Auto-déclaré
MathVista-Mini	87,4 %	3ᵉ / 23	llm-stats	Auto-déclaré
MLVU	87,3 %	2ᵉ / 10	llm-stats	Auto-déclaré
VideoMME w sub.	87,3 %	2ᵉ / 9	llm-stats	Auto-déclaré
MMLU-Pro	86,7 %	10ᵉ / 125	llm-stats	Auto-déclaré
MMMLU	86,7 %	21ᵉ / 49	llm-stats	Auto-déclaré
GPQA	86,6 %	33ᵉ / 213	llm-stats	Auto-déclaré
MathVision	86,2 %	6ᵉ / 31	llm-stats	Auto-déclaré
DynaMath	85,9 %	3ᵉ / 7	llm-stats	Auto-déclaré
CodeForces	85,1 %	4ᵉ / 16	llm-stats	Auto-déclaré
RealWorldQA	85,1 %	6ᵉ / 25	llm-stats	Auto-déclaré
EmbSpatialBench	83,9 %	5ᵉ / 8	llm-stats	Auto-déclaré
MMMU	83,9 %	5ᵉ / 61	llm-stats	Auto-déclaré
VideoMME w/o sub.	83,9 %	1ᵉ / 10	llm-stats	Auto-déclaré
MMStar	82,9 %	2ᵉ / 22	llm-stats	Auto-déclaré
Include	82,8 %	6ᵉ / 31	llm-stats	Auto-déclaré
MMLU-ProX	82,2 %	6ᵉ / 32	llm-stats	Auto-déclaré
VideoMMMU	82,0 %	15ᵉ / 26	llm-stats	Auto-déclaré
CC-OCR	81,8 %	4ᵉ / 18	llm-stats	Auto-déclaré
SlakeVQA	81,6 %	1ᵉ / 4	llm-stats	Auto-déclaré
LingoQA	80,8 %	3ᵉ / 4	llm-stats	Auto-déclaré
t2-bench	79,5 %	13ᵉ / 23	llm-stats	Auto-déclaré
LiveCodeBench v6	78,9 %	22ᵉ / 53	llm-stats	Auto-déclaré
WMT24++	78,3 %	9ᵉ / 23	llm-stats	Auto-déclaré
CharXiv-R	77,2 %	24ᵉ / 42	llm-stats	Auto-déclaré
MMMU-Pro	76,9 %	19ᵉ / 60	llm-stats	Auto-déclaré
MVBench	76,6 %	1ᵉ / 17	llm-stats	Auto-déclaré
IFBench	76,1 %	8ᵉ / 27	llm-stats	Auto-déclaré
MMVU	74,7 %	2ᵉ / 4	llm-stats	Auto-déclaré
LVBench	74,4 %	5ᵉ / 23	llm-stats	Auto-déclaré
BFCL-V4	72,2 %	4ᵉ / 13	llm-stats	Auto-déclaré
SWE-Bench Verified	72,0 %	49ᵉ / 100	llm-stats	Auto-déclaré
ScreenSpot Pro	70,4 %	6ᵉ / 23	llm-stats	Auto-déclaré
BrowseComp-zh	69,9 %	2ᵉ / 13	llm-stats	Auto-déclaré
RefSpatialBench	69,3 %	3ᵉ / 6	llm-stats	Auto-déclaré
PolyMATH	68,9 %	6ᵉ / 23	llm-stats	Auto-déclaré
Hallusion Bench	67,6 %	4ᵉ / 16	llm-stats	Auto-déclaré
MedXpertQA	67,3 %	2ᵉ / 12	llm-stats	Auto-déclaré
SuperGPQA	67,1 %	7ᵉ / 34	llm-stats	Auto-déclaré
AA-LCR	66,9 %	5ᵉ / 14	llm-stats	Auto-déclaré
AndroidWorld_SR	66,4 %	2ᵉ / 8	llm-stats	Auto-déclaré
BrowseComp	63,8 %	25ᵉ / 51	llm-stats	Auto-déclaré
PMC-VQA	63,3 %	1ᵉ / 3	llm-stats	Auto-déclaré
FullStackBench en	62,6 %	1ᵉ / 3	llm-stats	Auto-déclaré
ERQA	62,0 %	10ᵉ / 22	llm-stats	Auto-déclaré
SimpleVQA	61,7 %	8ᵉ / 13	llm-stats	Auto-déclaré
Multi-Challenge	61,5 %	8ᵉ / 28	llm-stats	Auto-déclaré
WideSearch	60,5 %	6ᵉ / 8	llm-stats	Auto-déclaré
LongBench v2	60,2 %	9ᵉ / 15	llm-stats	Auto-déclaré
MMLongBench-Doc	59,0 %	4ᵉ / 5	llm-stats	Auto-déclaré
FullStackBench zh	58,7 %	1ᵉ / 3	llm-stats	Auto-déclaré
NOVA-63	58,6 %	4ᵉ / 11	llm-stats	Auto-déclaré
OSWorld-Verified	58,0 %	14ᵉ / 17	llm-stats	Auto-déclaré
TIR-Bench	53,2 %	4ᵉ / 4	llm-stats	Auto-déclaré
Terminal-Bench 2.0	49,4 %	35ᵉ / 48	llm-stats	Auto-déclaré
Humanity's Last Exam	47,5 %	20ᵉ / 86	llm-stats	Auto-déclaré
ODinW	44,5 %	9ᵉ / 16	llm-stats	Auto-déclaré
Seal-0	44,1 %	5ᵉ / 6	llm-stats	Auto-déclaré
BabyVision	40,2 %	6ᵉ / 7	llm-stats	Auto-déclaré
OJBench	39,5 %	4ᵉ / 9	llm-stats	Auto-déclaré
SUNRGBD	36,2 %	1ᵉ / 4	llm-stats	Auto-déclaré
ZEROBench-Sub	36,2 %	1ᵉ / 5	llm-stats	Auto-déclaré
VITA-Bench	33,6 %	7ᵉ / 10	llm-stats	Auto-déclaré
GDPval-AA	32,8 %	27ᵉ / 33	llm-stats	n.d.
DeepPlanning	24,1 %	5ᵉ / 9	llm-stats	Auto-déclaré
Nuscene	15,4 %	1ᵉ / 3	llm-stats	Auto-déclaré
Hypersim	12,7 %	3ᵉ / 4	llm-stats	Auto-déclaré
ZEROBench	9,0 %	6ᵉ / 8	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nemotron 3 Ultra 550B A…37.8

▶ Qwen3.5-122B-A10B32.3

Mistral Medium 3.529.9

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Mistral Medium 3.546.9

▶ Qwen3.5-122B-A10B45.7

Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1417	96ᵉ
Arena Code	1364	55ᵉ
Arena Vision	1228	42ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
SiliconFlow	0,26 $	2,08 $	n.d.
artificialanalysis	0,4 $	3,2 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 18,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,45 $
Latence moyenne par benchmark — Benchable	21 min 30 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	China

Notre analyse

Forces. Qwen3.5-122B-A10B se distingue d’abord par son rapport capacité-prix : il associe une fenêtre de contexte très longue à un coût d’entrée et de sortie classé très économique, avec un écart marqué face à la moyenne des modèles comparables. Ses meilleurs signaux viennent des tests Benchable Hallucinations et Email Classification, où il obtient des résultats très élevés en baseline. L’Instruction Following reste correct, ce qui indique une capacité exploitable pour des tâches structurées. Côté classements agrégés, le Code Index et l’Arena code le placent dans une zone plus compétitive que son Intelligence Index global, avec un positionnement honorable à sa sortie sur GPQA parmi les LLM de sa période.

Limites et points d'attention. Les résultats Benchable General Knowledge, Coding et Reasoning sont très faibles en baseline, ce qui limite fortement son intérêt pour les tâches de connaissance générale, de raisonnement autonome ou de programmation évaluée dans ce cadre. L’Agentic Index reste en retrait, avec un positionnement de milieu-bas de tableau pour les usages agentiques. Le modèle présente donc un profil contrasté : économique, long contexte et efficace sur certaines tâches de classification ou de conformité de sortie, mais peu convaincant sur les évaluations de raisonnement et de code Benchable. Les usages les plus cohérents concernent les traitements à grand volume sensibles au coût, la classification d’e-mails et les pipelines où les réponses peuvent être cadrées et vérifiées.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).