Qwen

Qwen3 VL 235B A22B Instruct

Qwen3 VL 235B A22B Instruct est un LLM de Qwen publié le 22 septembre 2025 sous licence Apache 2.0, avec des poids ouverts et un usage commercial autorisé. Le modèle combine une très grande taille déclarée, 236 milliards de paramètres, avec 22 milliards de paramètres actifs, et une…

Son positionnement repose surtout sur le rapport coût-capacités : le tarif est indiqué comme très économique, nettement inférieur à celui des LLM similaires et des modèles frontière. À sa sortie, il figurait dans le top 18% de sa génération sur MMLU-Pro, avec une couverture établie par 5 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Connaissances jusqu'à	2025-03-31
Multimodal	oui
Paramètres	236 milliards
Paramètres actifs	22 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	14.3	114ᵉ / 136
Math Index	70.7	21ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	158ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	92,3 %	91ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	80,0 %	174ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	65,7 %	114ᵉ / 252	benchable	✅ Mesuré
DocVQAtest	97,1 %	1ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot	95,4 %	3ᵉ / 16	llm-stats	Auto-déclaré
MMLU-Redux	92,2 %	19ᵉ / 48	llm-stats	Auto-déclaré
OCRBench	92,0 %	3ᵉ / 22	llm-stats	Auto-déclaré
MMBench-V1.1	89,9 %	8ᵉ / 18	llm-stats	Auto-déclaré
AI2D	89,7 %	12ᵉ / 32	llm-stats	Auto-déclaré
InfoVQAtest	89,2 %	3ᵉ / 12	llm-stats	Auto-déclaré
MMLU	88,8 %	15ᵉ / 98	llm-stats	Auto-déclaré
IFEval	87,8 %	28ᵉ / 65	llm-stats	Auto-déclaré
Creative Writing v3	86,5 %	2ᵉ / 12	llm-stats	Auto-déclaré
MultiPL-E	86,1 %	3ᵉ / 13	llm-stats	Auto-déclaré
WritingBench	85,5 %	5ᵉ / 15	llm-stats	Auto-déclaré
MathVista-Mini	84,9 %	9ᵉ / 23	llm-stats	Auto-déclaré
MLVU	84,3 %	8ᵉ / 10	llm-stats	Auto-déclaré
CSimpleQA	83,4 %	3ᵉ / 7	llm-stats	Auto-déclaré
CC-OCR	82,2 %	2ᵉ / 18	llm-stats	Auto-déclaré
MMLU-Pro	81,8 %	39ᵉ / 125	llm-stats	Auto-déclaré
Include	80,0 %	9ᵉ / 31	llm-stats	Auto-déclaré
RealWorldQA	79,3 %	11ᵉ / 25	llm-stats	Auto-déclaré
VideoMME w/o sub.	79,2 %	5ᵉ / 10	llm-stats	Auto-déclaré
MMMUval	78,7 %	2ᵉ / 4	llm-stats	Auto-déclaré
MMStar	78,4 %	8ᵉ / 22	llm-stats	Auto-déclaré
MMLU-ProX	77,8 %	14ᵉ / 32	llm-stats	Auto-déclaré
Arena-Hard v2	77,4 %	5ᵉ / 16	llm-stats	Auto-déclaré
Multi-IF	76,3 %	7ᵉ / 20	llm-stats	Auto-déclaré
LiveBench 20241125	74,8 %	6ᵉ / 14	llm-stats	Auto-déclaré
AIME 2025	74,7 %	73ᵉ / 108	llm-stats	Auto-déclaré
VideoMMMU	74,7 %	20ᵉ / 26	llm-stats	Auto-déclaré
MuirBench	72,8 %	6ᵉ / 11	llm-stats	Auto-déclaré
BLINK	70,7 %	3ᵉ / 13	llm-stats	Auto-déclaré
MMMU-Pro	68,1 %	33ᵉ / 60	llm-stats	Auto-déclaré
BFCL-v3	67,7 %	14ᵉ / 19	llm-stats	Auto-déclaré
LVBench	67,7 %	9ᵉ / 23	llm-stats	Auto-déclaré
OCRBench-V2 (en)	67,1 %	3ᵉ / 12	llm-stats	Auto-déclaré
OSWorld	66,7 %	5ᵉ / 20	llm-stats	Auto-déclaré
MathVision	66,5 %	17ᵉ / 31	llm-stats	Auto-déclaré
CharadesSTA	64,8 %	1ᵉ / 12	llm-stats	Auto-déclaré
AndroidWorld_SR	63,7 %	4ᵉ / 8	llm-stats	Auto-déclaré
Hallusion Bench	63,2 %	11ᵉ / 16	llm-stats	Auto-déclaré
CharXiv-R	62,1 %	30ᵉ / 42	llm-stats	Auto-déclaré
ScreenSpot Pro	62,0 %	11ᵉ / 23	llm-stats	Auto-déclaré
OCRBench-V2 (zh)	61,8 %	3ᵉ / 11	llm-stats	Auto-déclaré
LiveCodeBench v5	61,4 %	3ᵉ / 9	llm-stats	Auto-déclaré
SuperGPQA	60,4 %	17ᵉ / 34	llm-stats	Auto-déclaré
HMMT25	57,4 %	19ᵉ / 25	llm-stats	Auto-déclaré
LiveCodeBench v6	54,3 %	41ᵉ / 53	llm-stats	Auto-déclaré
SimpleQA	51,9 %	13ᵉ / 45	llm-stats	Auto-déclaré
ERQA	51,3 %	14ᵉ / 22	llm-stats	Auto-déclaré
ODinW	48,6 %	4ᵉ / 16	llm-stats	Auto-déclaré
MM-MT-Bench	8,5 %	5ᵉ / 17	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ Qwen3 VL 235B A22B Inst…14.3

Llama 4 Maverick14.3

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Qwen3-235B-A22B-Instruc…71.7

▶ Qwen3 VL 235B A22B Inst…70.7

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1415	102ᵉ
Arena Vision	1215	50ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,2 $	0,88 $	0,11 $
artificialanalysis	0,3 $	1,9 $	0,3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	5 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 235B A22B Instruct se distingue par des résultats très élevés sur plusieurs benchmarks Benchable de base : Hallucinations, General Knowledge, Reasoning et Ethics apparaissent tous dans le top 10. Le Math Index le place aussi dans une zone solide, même si le benchmark Benchable Mathematics est moins dominant. À sa sortie, son classement MMLU-Pro le situait dans le haut du panier des LLM de sa période. La licence Apache 2.0 renforce son intérêt pratique, car elle autorise les usages commerciaux avec des poids ouverts. Le coût constitue un autre point fort majeur : la tarification est annoncée 90% sous la moyenne des LLM similaires et environ 24,2 fois inférieure à celle des modèles frontière.

Limites et points d'attention. L’Intelligence Index reste faible dans le classement fourni, ce qui nuance les très bons scores Benchable et signale une performance générale moins compétitive selon cet indice. L’Arena text le place loin des premiers rangs, tandis que l’Arena vision indique une position plus intermédiaire que dominante. Email Classification apparaît aussi comme un point faible relatif. Les connaissances s’arrêtent au 2025-03-31, ce qui limite les usages dépendants d’informations récentes. Ce modèle convient surtout aux déploiements recherchant des poids ouverts, un long contexte et un coût très bas, avec une vigilance particulière sur les tâches où les classements Arena et Intelligence Index sont déterminants.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Qwen3 VL 235B A22B Instruct

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast