Qwen

Qwen3 VL 32B Instruct

Qwen3 VL 32B Instruct est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Le modèle se place dans une catégorie rare : 33 milliards de paramètres, une très grande fenêtre de contexte et un positionnement tarifaire très…

Son intérêt tient surtout au rapport entre accès ouvert, coût d’inférence bas et résultats Benchable solides sur plusieurs tâches générales. À sa sortie, il se situait dans le top 42% des LLM de sa génération sur GPQA, ce qui le place dans la moitié supérieure de son époque sans en faire un modèle frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Multimodal	oui
Paramètres	33 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	100,0 %	1ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,5 %	161ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	95,5 %	123ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	67,5 %	105ᵉ / 252	benchable	✅ Mesuré
DocVQAtest	96,9 %	2ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot	95,8 %	1ᵉ / 16	llm-stats	Auto-déclaré
CharXiv-D	90,5 %	3ᵉ / 16	llm-stats	Auto-déclaré
MMLU-Redux	89,8 %	25ᵉ / 48	llm-stats	Auto-déclaré
AI2D	89,5 %	13ᵉ / 32	llm-stats	Auto-déclaré
OCRBench	89,5 %	7ᵉ / 22	llm-stats	Auto-déclaré
InfoVQAtest	87,0 %	5ᵉ / 12	llm-stats	Auto-déclaré
MMLU	86,4 %	28ᵉ / 98	llm-stats	Auto-déclaré
Creative Writing v3	85,6 %	5ᵉ / 12	llm-stats	Auto-déclaré
IFEval	84,7 %	40ᵉ / 65	llm-stats	Auto-déclaré
MathVista-Mini	83,8 %	10ᵉ / 23	llm-stats	Auto-déclaré
WritingBench	82,9 %	12ᵉ / 15	llm-stats	Auto-déclaré
MLVU-M	82,1 %	1ᵉ / 8	llm-stats	Auto-déclaré
CC-OCR	80,3 %	10ᵉ / 18	llm-stats	Auto-déclaré
RealWorldQA	79,0 %	12ᵉ / 25	llm-stats	Auto-déclaré
MMLU-Pro	78,6 %	55ᵉ / 125	llm-stats	Auto-déclaré
MMStar	77,7 %	9ᵉ / 22	llm-stats	Auto-déclaré
MMMU (val)	76,0 %	2ᵉ / 11	llm-stats	Auto-déclaré
Include	74,0 %	18ᵉ / 31	llm-stats	Auto-déclaré
MMLU-ProX	73,4 %	19ᵉ / 32	llm-stats	Auto-déclaré
MuirBench	72,8 %	6ᵉ / 11	llm-stats	Auto-déclaré
MVBench	72,8 %	8ᵉ / 17	llm-stats	Auto-déclaré
LiveBench 20241125	72,2 %	8ᵉ / 14	llm-stats	Auto-déclaré
Multi-IF	72,0 %	14ᵉ / 20	llm-stats	Auto-déclaré
BFCL-v3	70,2 %	11ᵉ / 19	llm-stats	Auto-déclaré
GPQA	68,9 %	116ᵉ / 213	llm-stats	Auto-déclaré
OCRBench-V2 (en)	67,4 %	2ᵉ / 12	llm-stats	Auto-déclaré
BLINK	67,3 %	8ᵉ / 13	llm-stats	Auto-déclaré
AIME 2025	66,2 %	86ᵉ / 108	llm-stats	Auto-déclaré
MMMU-Pro	65,3 %	36ᵉ / 60	llm-stats	Auto-déclaré
Arena-Hard v2	64,7 %	9ᵉ / 16	llm-stats	Auto-déclaré
Hallusion Bench	63,8 %	10ᵉ / 16	llm-stats	Auto-déclaré
LVBench	63,8 %	10ᵉ / 23	llm-stats	Auto-déclaré
MathVision	63,4 %	19ᵉ / 31	llm-stats	Auto-déclaré
CharXiv-R	62,8 %	29ᵉ / 42	llm-stats	Auto-déclaré
CharadesSTA	61,2 %	6ᵉ / 12	llm-stats	Auto-déclaré
OCRBench-V2 (zh)	59,2 %	6ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot Pro	57,9 %	15ᵉ / 23	llm-stats	Auto-déclaré
SuperGPQA	54,6 %	24ᵉ / 34	llm-stats	Auto-déclaré
ERQA	48,8 %	15ᵉ / 22	llm-stats	Auto-déclaré
ODinW	46,6 %	7ᵉ / 16	llm-stats	Auto-déclaré
LiveCodeBench v6	43,8 %	48ᵉ / 53	llm-stats	Auto-déclaré
PolyMATH	40,5 %	19ᵉ / 23	llm-stats	Auto-déclaré
OSWorld	32,6 %	14ᵉ / 20	llm-stats	Auto-déclaré
MM-MT-Bench	8,4 %	8ᵉ / 17	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ Qwen3 VL 32B Instruct100 %

DeepSeek R1 Distill Lla…100 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Qwen3 VL 32B Instruct100 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,104 $	0,416 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 46,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	5 min 32 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 32B Instruct obtient des scores maximaux sur Benchable en General Knowledge, Ethics, Mathematics, Reasoning et Coding, avec une présence en top 10 sur ces cinq catégories. Le profil est donc particulièrement homogène pour les usages de connaissance générale, raisonnement, calcul et génération de code. Sa fenêtre de contexte de 262 144 tokens constitue aussi un atout pour traiter de longs documents ou de longues conversations sans découpage excessif. Le coût renforce ce positionnement : la tarification est annoncée 95% sous la moyenne des LLM similaires et environ 46,5 fois inférieure à celle des modèles frontière, ce qui rend le modèle compétitif pour des volumes élevés.

Limites et points d'attention. Le classement relatif est moins convaincant en Email Classification, où le modèle reste loin des meilleurs malgré un score absolu élevé. Sur GPQA, son positionnement à la sortie dans le top 42% des LLM de la même période indique un bon niveau générationnel, mais pas une domination sur les tâches les plus sélectives. Les données disponibles ne documentent pas de capacités au-delà des benchmarks listés, ni de détails d’entraînement, ce qui limite l’analyse des usages spécialisés. Profil adapté : déploiements open-weights à coût maîtrisé, avec besoins larges en raisonnement, code, mathématiques et long contexte.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Qwen3 VL 32B Instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast