Qwen3 VL 235B A22B Thinking

Qwen3 VL 235B A22B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Il se distingue par une très grande taille, 236 milliards de paramètres, et une fenêtre de contexte de 262 144 tokens.

Qwen3 VL 235B A22B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Il se distingue par une très grande taille, 236 milliards de paramètres, et une fenêtre de contexte de 262 144 tokens.

Son positionnement est fortement économique : son prix est indiqué 87% sous la moyenne des LLM similaires et environ 18,6 fois inférieur à celui des modèles frontière. À sa sortie, il se situait dans le top 6% des LLM de sa génération sur MMLU-Pro, selon le périmètre fourni.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie22 septembre 2025
Connaissances jusqu'à2025-03-31
Multimodaloui
Paramètres236 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)97,8 %159ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)95,2 %124ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)81,6 %45ᵉ / 252benchable✅ Mesuré
Benchable : Reasoning (Baseline)3,4 %230ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)3,1 %203ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)0,0 %237ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)0,0 %238ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)0,0 %236ᵉ / 248benchable✅ Mesuré
ZebraLogic97,3 %1ᵉ / 7llm-statsAuto-déclaré
DocVQAtest96,5 %3ᵉ / 11llm-statsAuto-déclaré
ScreenSpot95,4 %3ᵉ / 16llm-statsAuto-déclaré
CountBench93,7 %6ᵉ / 6llm-statsAuto-déclaré
MMLU-Redux93,7 %8ᵉ / 48llm-statsAuto-déclaré
RefCOCO-avg92,4 %3ᵉ / 7llm-statsAuto-déclaré
MMBench-V1.190,6 %7ᵉ / 18llm-statsAuto-déclaré
MMLU90,6 %5ᵉ / 98llm-statsAuto-déclaré
AIME 202589,7 %45ᵉ / 108llm-statsAuto-déclaré
InfoVQAtest89,5 %2ᵉ / 12llm-statsAuto-déclaré
AI2D89,2 %14ᵉ / 32llm-statsAuto-déclaré
IFEval88,2 %26ᵉ / 65llm-statsAuto-déclaré
OCRBench87,5 %13ᵉ / 22llm-statsAuto-déclaré
WritingBench86,7 %3ᵉ / 15llm-statsAuto-déclaré
MathVista-Mini85,8 %8ᵉ / 23llm-statsAuto-déclaré
Creative Writing v385,7 %4ᵉ / 12llm-statsAuto-déclaré
EmbSpatialBench84,3 %3ᵉ / 8llm-statsAuto-déclaré
MLVU83,8 %9ᵉ / 10llm-statsAuto-déclaré
MMLU-Pro83,8 %26ᵉ / 125llm-statsAuto-déclaré
CC-OCR81,5 %5ᵉ / 18llm-statsAuto-déclaré
RealWorldQA81,3 %10ᵉ / 25llm-statsAuto-déclaré
MMLU-ProX80,6 %10ᵉ / 32llm-statsAuto-déclaré
MMMUval80,6 %1ᵉ / 4llm-statsAuto-déclaré
MuirBench80,1 %2ᵉ / 11llm-statsAuto-déclaré
Include80,0 %9ᵉ / 31llm-statsAuto-déclaré
VideoMMMU80,0 %17ᵉ / 26llm-statsAuto-déclaré
LiveBench 2024112579,6 %1ᵉ / 14llm-statsAuto-déclaré
Multi-IF79,1 %3ᵉ / 20llm-statsAuto-déclaré
VideoMME w/o sub.79,0 %6ᵉ / 10llm-statsAuto-déclaré
MMStar78,7 %7ᵉ / 22llm-statsAuto-déclaré
HMMT2577,4 %13ᵉ / 25llm-statsAuto-déclaré
MathVision74,6 %13ᵉ / 31llm-statsAuto-déclaré
BFCL-v371,9 %6ᵉ / 19llm-statsAuto-déclaré
LiveCodeBench v670,1 %29ᵉ / 53llm-statsAuto-déclaré
RefSpatialBench69,9 %2ᵉ / 6llm-statsAuto-déclaré
MMMU-Pro69,3 %31ᵉ / 60llm-statsAuto-déclaré
BLINK67,1 %9ᵉ / 13llm-statsAuto-déclaré
OCRBench-V2 (en)66,8 %4ᵉ / 12llm-statsAuto-déclaré
Hallusion Bench66,7 %6ᵉ / 16llm-statsAuto-déclaré
CharXiv-R66,1 %27ᵉ / 42llm-statsAuto-déclaré
SuperGPQA64,3 %13ᵉ / 34llm-statsAuto-déclaré
LVBench63,6 %11ᵉ / 23llm-statsAuto-déclaré
CharadesSTA63,5 %2ᵉ / 12llm-statsAuto-déclaré
OCRBench-V2 (zh)63,5 %1ᵉ / 11llm-statsAuto-déclaré
ScreenSpot Pro61,8 %12ᵉ / 23llm-statsAuto-déclaré
SimpleVQA61,3 %9ᵉ / 13llm-statsAuto-déclaré
MMLongBench-Doc56,2 %5ᵉ / 5llm-statsAuto-déclaré
ERQA52,5 %12ᵉ / 22llm-statsAuto-déclaré
SimpleQA44,4 %18ᵉ / 45llm-statsAuto-déclaré
ODinW43,2 %10ᵉ / 16llm-statsAuto-déclaré
OSWorld38,1 %11ᵉ / 20llm-statsAuto-déclaré
SUNRGBD34,9 %3ᵉ / 4llm-statsAuto-déclaré
VisuLogic34,4 %3ᵉ / 3llm-statsAuto-déclaré
ZEROBench-Sub27,7 %5ᵉ / 5llm-statsAuto-déclaré
Humanity's Last Exam13,6 %70ᵉ / 86llm-statsAuto-déclaré
Hypersim11,0 %4ᵉ / 4llm-statsAuto-déclaré
MM-MT-Bench8,5 %5ᵉ / 17llm-statsAuto-déclaré
ZEROBench4,0 %8ᵉ / 8llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

▶ Qwen3 VL 235B A22B Thin…98 %
WizardLM-2 8x22B95 %

Benchable : Hallucinations (Baseline)

Phi 496 %
▶ Qwen3 VL 235B A22B Thin…95 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1396125ᵉ
Arena Vision119063ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,26 $2,6 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 18,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,53 $
Latence moyenne par benchmark — Benchable39 min 18 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 235B A22B Thinking présente ses meilleurs résultats Benchable sur Email Classification, Hallucinations et Instruction Following, ce qui indique un profil plus solide pour les tâches de tri, de réponses contrôlées et de respect de consignes que pour les tâches de résolution complexe. À sa sortie, son classement MMLU-Pro le plaçait dans le haut du panier de sa génération. La très grande fenêtre de contexte constitue aussi un atout concret pour traiter de longs documents ou de vastes historiques d’échange. Son prix très bas face aux modèles similaires et aux modèles haut de gamme renforce son intérêt économique, surtout avec une licence Apache 2.0 adaptée aux usages commerciaux.

Limites et points d'attention. Les résultats Benchable sont très faibles en Reasoning, Mathematics et Coding, avec un décrochage net sur les tâches de raisonnement formel, de calcul et de programmation. Les classements Arena text et Arena vision ne le placent pas parmi les tout premiers modèles évalués, malgré un profil global compétitif à sa sortie sur MMLU-Pro. Le modèle doit donc être envisagé surtout pour des usages à forte contrainte de coût, de long contexte et de licence ouverte, plutôt que pour du code, des mathématiques ou des raisonnements complexes.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).