Qwen3.5-122B-A10B

Qwen3.5-122B-A10B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son profil combine une très grande fenêtre de contexte, 122 milliards de paramètres au total et seulement 10 milliards de paramètres actifs.

Qwen3.5-122B-A10B est un LLM open-weights de Qwen, publié le 24 février 2026 sous licence Apache 2.0 avec usage commercial autorisé. Son profil combine une très grande fenêtre de contexte, 122 milliards de paramètres au total et seulement 10 milliards de paramètres actifs.

Le modèle se positionne surtout comme une option très économique : sa tarification est nettement inférieure à celle des LLM similaires et environ 18,6 fois plus basse que celle des modèles frontière. À sa sortie, il figurait dans le top 12% de sa génération sur GPQA.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie24 février 2026
Multimodaloui
Paramètres122 milliards
Paramètres actifs10 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index32.355ᵉ / 136
Code Index45.729ᵉ / 50
Agentic Index20.729ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Instruction Following (Baseline)75,0 %68ᵉ / 252benchable✅ Mesuré
Benchable : General Knowledge (Baseline)0,0 %238ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)0,0 %237ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)0,0 %232ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)0,0 %236ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)0,0 %206ᵉ / 217benchable✅ Mesuré
CountBench97,0 %5ᵉ / 6llm-statsAuto-déclaré
VLMsAreBlind96,7 %4ᵉ / 4llm-statsAuto-déclaré
MMLU-Redux94,0 %6ᵉ / 48llm-statsAuto-déclaré
IFEval93,4 %6ᵉ / 65llm-statsAuto-déclaré
AI2D93,3 %5ᵉ / 32llm-statsAuto-déclaré
V*93,2 %5ᵉ / 7llm-statsAuto-déclaré
MMBench-V1.192,8 %1ᵉ / 18llm-statsAuto-déclaré
OCRBench92,1 %2ᵉ / 22llm-statsAuto-déclaré
C-Eval91,9 %4ᵉ / 18llm-statsAuto-déclaré
HMMT 202591,4 %15ᵉ / 33llm-statsAuto-déclaré
RefCOCO-avg91,3 %5ᵉ / 7llm-statsAuto-déclaré
HMMT2590,3 %5ᵉ / 25llm-statsAuto-déclaré
OmniDocBench 1.589,8 %5ᵉ / 13llm-statsAuto-déclaré
Global PIQA88,4 %7ᵉ / 13llm-statsAuto-déclaré
MAXIFE87,9 %6ᵉ / 11llm-statsAuto-déclaré
MathVista-Mini87,4 %3ᵉ / 23llm-statsAuto-déclaré
MLVU87,3 %2ᵉ / 10llm-statsAuto-déclaré
VideoMME w sub.87,3 %2ᵉ / 9llm-statsAuto-déclaré
MMLU-Pro86,7 %10ᵉ / 125llm-statsAuto-déclaré
MMMLU86,7 %21ᵉ / 49llm-statsAuto-déclaré
GPQA86,6 %33ᵉ / 213llm-statsAuto-déclaré
MathVision86,2 %6ᵉ / 31llm-statsAuto-déclaré
DynaMath85,9 %3ᵉ / 7llm-statsAuto-déclaré
CodeForces85,1 %4ᵉ / 16llm-statsAuto-déclaré
RealWorldQA85,1 %6ᵉ / 25llm-statsAuto-déclaré
EmbSpatialBench83,9 %5ᵉ / 8llm-statsAuto-déclaré
MMMU83,9 %5ᵉ / 61llm-statsAuto-déclaré
VideoMME w/o sub.83,9 %1ᵉ / 10llm-statsAuto-déclaré
MMStar82,9 %2ᵉ / 22llm-statsAuto-déclaré
Include82,8 %6ᵉ / 31llm-statsAuto-déclaré
MMLU-ProX82,2 %6ᵉ / 32llm-statsAuto-déclaré
VideoMMMU82,0 %15ᵉ / 26llm-statsAuto-déclaré
CC-OCR81,8 %4ᵉ / 18llm-statsAuto-déclaré
SlakeVQA81,6 %1ᵉ / 4llm-statsAuto-déclaré
LingoQA80,8 %3ᵉ / 4llm-statsAuto-déclaré
t2-bench79,5 %13ᵉ / 23llm-statsAuto-déclaré
LiveCodeBench v678,9 %22ᵉ / 53llm-statsAuto-déclaré
WMT24++78,3 %9ᵉ / 23llm-statsAuto-déclaré
CharXiv-R77,2 %24ᵉ / 42llm-statsAuto-déclaré
MMMU-Pro76,9 %19ᵉ / 60llm-statsAuto-déclaré
MVBench76,6 %1ᵉ / 17llm-statsAuto-déclaré
IFBench76,1 %8ᵉ / 27llm-statsAuto-déclaré
MMVU74,7 %2ᵉ / 4llm-statsAuto-déclaré
LVBench74,4 %5ᵉ / 23llm-statsAuto-déclaré
BFCL-V472,2 %4ᵉ / 13llm-statsAuto-déclaré
SWE-Bench Verified72,0 %49ᵉ / 100llm-statsAuto-déclaré
ScreenSpot Pro70,4 %6ᵉ / 23llm-statsAuto-déclaré
BrowseComp-zh69,9 %2ᵉ / 13llm-statsAuto-déclaré
RefSpatialBench69,3 %3ᵉ / 6llm-statsAuto-déclaré
PolyMATH68,9 %6ᵉ / 23llm-statsAuto-déclaré
Hallusion Bench67,6 %4ᵉ / 16llm-statsAuto-déclaré
MedXpertQA67,3 %2ᵉ / 12llm-statsAuto-déclaré
SuperGPQA67,1 %7ᵉ / 34llm-statsAuto-déclaré
AA-LCR66,9 %5ᵉ / 14llm-statsAuto-déclaré
AndroidWorld_SR66,4 %2ᵉ / 8llm-statsAuto-déclaré
BrowseComp63,8 %25ᵉ / 51llm-statsAuto-déclaré
PMC-VQA63,3 %1ᵉ / 3llm-statsAuto-déclaré
FullStackBench en62,6 %1ᵉ / 3llm-statsAuto-déclaré
ERQA62,0 %10ᵉ / 22llm-statsAuto-déclaré
SimpleVQA61,7 %8ᵉ / 13llm-statsAuto-déclaré
Multi-Challenge61,5 %8ᵉ / 28llm-statsAuto-déclaré
WideSearch60,5 %6ᵉ / 8llm-statsAuto-déclaré
LongBench v260,2 %9ᵉ / 15llm-statsAuto-déclaré
MMLongBench-Doc59,0 %4ᵉ / 5llm-statsAuto-déclaré
FullStackBench zh58,7 %1ᵉ / 3llm-statsAuto-déclaré
NOVA-6358,6 %4ᵉ / 11llm-statsAuto-déclaré
OSWorld-Verified58,0 %14ᵉ / 17llm-statsAuto-déclaré
TIR-Bench53,2 %4ᵉ / 4llm-statsAuto-déclaré
Terminal-Bench 2.049,4 %35ᵉ / 48llm-statsAuto-déclaré
Humanity's Last Exam47,5 %20ᵉ / 86llm-statsAuto-déclaré
ODinW44,5 %9ᵉ / 16llm-statsAuto-déclaré
Seal-044,1 %5ᵉ / 6llm-statsAuto-déclaré
BabyVision40,2 %6ᵉ / 7llm-statsAuto-déclaré
OJBench39,5 %4ᵉ / 9llm-statsAuto-déclaré
SUNRGBD36,2 %1ᵉ / 4llm-statsAuto-déclaré
ZEROBench-Sub36,2 %1ᵉ / 5llm-statsAuto-déclaré
VITA-Bench33,6 %7ᵉ / 10llm-statsAuto-déclaré
GDPval-AA32,8 %27ᵉ / 33llm-statsn.d.
DeepPlanning24,1 %5ᵉ / 9llm-statsAuto-déclaré
Nuscene15,4 %1ᵉ / 3llm-statsAuto-déclaré
Hypersim12,7 %3ᵉ / 4llm-statsAuto-déclaré
ZEROBench9,0 %6ᵉ / 8llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nemotron 3 Ultra 550B A…37.8
▶ Qwen3.5-122B-A10B32.3

Code Index

▶ Qwen3.5-122B-A10B45.7
Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text141796ᵉ
Arena Code136455ᵉ
Arena Vision122842ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
SiliconFlow0,26 $2,08 $n.d.
artificialanalysis0,4 $3,2 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 18,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,45 $
Latence moyenne par benchmark — Benchable21 min 30 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysChina

Notre analyse

Forces. Qwen3.5-122B-A10B se distingue d’abord par son rapport capacité-prix : il associe une fenêtre de contexte très longue à un coût d’entrée et de sortie classé très économique, avec un écart marqué face à la moyenne des modèles comparables. Ses meilleurs signaux viennent des tests Benchable Hallucinations et Email Classification, où il obtient des résultats très élevés en baseline. L’Instruction Following reste correct, ce qui indique une capacité exploitable pour des tâches structurées. Côté classements agrégés, le Code Index et l’Arena code le placent dans une zone plus compétitive que son Intelligence Index global, avec un positionnement honorable à sa sortie sur GPQA parmi les LLM de sa période.

Limites et points d'attention. Les résultats Benchable General Knowledge, Coding et Reasoning sont très faibles en baseline, ce qui limite fortement son intérêt pour les tâches de connaissance générale, de raisonnement autonome ou de programmation évaluée dans ce cadre. L’Agentic Index reste en retrait, avec un positionnement de milieu-bas de tableau pour les usages agentiques. Le modèle présente donc un profil contrasté : économique, long contexte et efficace sur certaines tâches de classification ou de conformité de sortie, mais peu convaincant sur les évaluations de raisonnement et de code Benchable. Les usages les plus cohérents concernent les traitements à grand volume sensibles au coût, la classification d’e-mails et les pipelines où les réponses peuvent être cadrées et vérifiées.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).