Qwen

Qwen3 VL 235B A22B Thinking

Qwen3 VL 235B A22B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Il se distingue par une très grande taille, 236 milliards de paramètres, et une fenêtre de contexte de 262 144 tokens.

Son positionnement est fortement économique : son prix est indiqué 87% sous la moyenne des LLM similaires et environ 18,6 fois inférieur à celui des modèles frontière. À sa sortie, il se situait dans le top 6% des LLM de sa génération sur MMLU-Pro, selon le périmètre fourni.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Connaissances jusqu'à	2025-03-31
Multimodal	oui
Paramètres	236 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	97,8 %	159ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	95,2 %	124ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	81,6 %	45ᵉ / 252	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	3,4 %	230ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	3,1 %	203ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	0,0 %	237ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	0,0 %	236ᵉ / 248	benchable	✅ Mesuré
ZebraLogic	97,3 %	1ᵉ / 7	llm-stats	Auto-déclaré
DocVQAtest	96,5 %	3ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot	95,4 %	3ᵉ / 16	llm-stats	Auto-déclaré
CountBench	93,7 %	6ᵉ / 6	llm-stats	Auto-déclaré
MMLU-Redux	93,7 %	8ᵉ / 48	llm-stats	Auto-déclaré
RefCOCO-avg	92,4 %	3ᵉ / 7	llm-stats	Auto-déclaré
MMBench-V1.1	90,6 %	7ᵉ / 18	llm-stats	Auto-déclaré
MMLU	90,6 %	5ᵉ / 98	llm-stats	Auto-déclaré
AIME 2025	89,7 %	45ᵉ / 108	llm-stats	Auto-déclaré
InfoVQAtest	89,5 %	2ᵉ / 12	llm-stats	Auto-déclaré
AI2D	89,2 %	14ᵉ / 32	llm-stats	Auto-déclaré
IFEval	88,2 %	26ᵉ / 65	llm-stats	Auto-déclaré
OCRBench	87,5 %	13ᵉ / 22	llm-stats	Auto-déclaré
WritingBench	86,7 %	3ᵉ / 15	llm-stats	Auto-déclaré
MathVista-Mini	85,8 %	8ᵉ / 23	llm-stats	Auto-déclaré
Creative Writing v3	85,7 %	4ᵉ / 12	llm-stats	Auto-déclaré
EmbSpatialBench	84,3 %	3ᵉ / 8	llm-stats	Auto-déclaré
MLVU	83,8 %	9ᵉ / 10	llm-stats	Auto-déclaré
MMLU-Pro	83,8 %	26ᵉ / 125	llm-stats	Auto-déclaré
CC-OCR	81,5 %	5ᵉ / 18	llm-stats	Auto-déclaré
RealWorldQA	81,3 %	10ᵉ / 25	llm-stats	Auto-déclaré
MMLU-ProX	80,6 %	10ᵉ / 32	llm-stats	Auto-déclaré
MMMUval	80,6 %	1ᵉ / 4	llm-stats	Auto-déclaré
MuirBench	80,1 %	2ᵉ / 11	llm-stats	Auto-déclaré
Include	80,0 %	9ᵉ / 31	llm-stats	Auto-déclaré
VideoMMMU	80,0 %	17ᵉ / 26	llm-stats	Auto-déclaré
LiveBench 20241125	79,6 %	1ᵉ / 14	llm-stats	Auto-déclaré
Multi-IF	79,1 %	3ᵉ / 20	llm-stats	Auto-déclaré
VideoMME w/o sub.	79,0 %	6ᵉ / 10	llm-stats	Auto-déclaré
MMStar	78,7 %	7ᵉ / 22	llm-stats	Auto-déclaré
HMMT25	77,4 %	13ᵉ / 25	llm-stats	Auto-déclaré
MathVision	74,6 %	13ᵉ / 31	llm-stats	Auto-déclaré
BFCL-v3	71,9 %	6ᵉ / 19	llm-stats	Auto-déclaré
LiveCodeBench v6	70,1 %	29ᵉ / 53	llm-stats	Auto-déclaré
RefSpatialBench	69,9 %	2ᵉ / 6	llm-stats	Auto-déclaré
MMMU-Pro	69,3 %	31ᵉ / 60	llm-stats	Auto-déclaré
BLINK	67,1 %	9ᵉ / 13	llm-stats	Auto-déclaré
OCRBench-V2 (en)	66,8 %	4ᵉ / 12	llm-stats	Auto-déclaré
Hallusion Bench	66,7 %	6ᵉ / 16	llm-stats	Auto-déclaré
CharXiv-R	66,1 %	27ᵉ / 42	llm-stats	Auto-déclaré
SuperGPQA	64,3 %	13ᵉ / 34	llm-stats	Auto-déclaré
LVBench	63,6 %	11ᵉ / 23	llm-stats	Auto-déclaré
CharadesSTA	63,5 %	2ᵉ / 12	llm-stats	Auto-déclaré
OCRBench-V2 (zh)	63,5 %	1ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot Pro	61,8 %	12ᵉ / 23	llm-stats	Auto-déclaré
SimpleVQA	61,3 %	9ᵉ / 13	llm-stats	Auto-déclaré
MMLongBench-Doc	56,2 %	5ᵉ / 5	llm-stats	Auto-déclaré
ERQA	52,5 %	12ᵉ / 22	llm-stats	Auto-déclaré
SimpleQA	44,4 %	18ᵉ / 45	llm-stats	Auto-déclaré
ODinW	43,2 %	10ᵉ / 16	llm-stats	Auto-déclaré
OSWorld	38,1 %	11ᵉ / 20	llm-stats	Auto-déclaré
SUNRGBD	34,9 %	3ᵉ / 4	llm-stats	Auto-déclaré
VisuLogic	34,4 %	3ᵉ / 3	llm-stats	Auto-déclaré
ZEROBench-Sub	27,7 %	5ᵉ / 5	llm-stats	Auto-déclaré
Humanity's Last Exam	13,6 %	70ᵉ / 86	llm-stats	Auto-déclaré
Hypersim	11,0 %	4ᵉ / 4	llm-stats	Auto-déclaré
MM-MT-Bench	8,5 %	5ᵉ / 17	llm-stats	Auto-déclaré
ZEROBench	4,0 %	8ᵉ / 8	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Qwen3 VL 235B A22B Thin…98 %

WizardLM-2 8x22B95 %

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Phi 496 %

▶ Qwen3 VL 235B A22B Thin…95 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1396	125ᵉ
Arena Vision	1190	63ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,26 $	2,6 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 18,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,53 $
Latence moyenne par benchmark — Benchable	39 min 18 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 235B A22B Thinking présente ses meilleurs résultats Benchable sur Email Classification, Hallucinations et Instruction Following, ce qui indique un profil plus solide pour les tâches de tri, de réponses contrôlées et de respect de consignes que pour les tâches de résolution complexe. À sa sortie, son classement MMLU-Pro le plaçait dans le haut du panier de sa génération. La très grande fenêtre de contexte constitue aussi un atout concret pour traiter de longs documents ou de vastes historiques d’échange. Son prix très bas face aux modèles similaires et aux modèles haut de gamme renforce son intérêt économique, surtout avec une licence Apache 2.0 adaptée aux usages commerciaux.

Limites et points d'attention. Les résultats Benchable sont très faibles en Reasoning, Mathematics et Coding, avec un décrochage net sur les tâches de raisonnement formel, de calcul et de programmation. Les classements Arena text et Arena vision ne le placent pas parmi les tout premiers modèles évalués, malgré un profil global compétitif à sa sortie sur MMLU-Pro. Le modèle doit donc être envisagé surtout pour des usages à forte contrainte de coût, de long contexte et de licence ouverte, plutôt que pour du code, des mathématiques ou des raisonnements complexes.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Qwen3 VL 235B A22B Thinking

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast