Qwen3 VL 32B Instruct

Qwen3 VL 32B Instruct est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Le modèle se place dans une catégorie rare : 33 milliards de paramètres, une très grande fenêtre de contexte et un positionnement tarifaire très…

Qwen3 VL 32B Instruct est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Le modèle se place dans une catégorie rare : 33 milliards de paramètres, une très grande fenêtre de contexte et un positionnement tarifaire très économique.

Son intérêt tient surtout au rapport entre accès ouvert, coût d’inférence bas et résultats Benchable solides sur plusieurs tâches générales. À sa sortie, il se situait dans le top 42% des LLM de sa génération sur GPQA, ce qui le place dans la moitié supérieure de son époque sans en faire un modèle frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie22 septembre 2025
Multimodaloui
Paramètres33 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)100,0 %1ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,5 %161ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)95,5 %123ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)67,5 %105ᵉ / 252benchable✅ Mesuré
DocVQAtest96,9 %2ᵉ / 11llm-statsAuto-déclaré
ScreenSpot95,8 %1ᵉ / 16llm-statsAuto-déclaré
CharXiv-D90,5 %3ᵉ / 16llm-statsAuto-déclaré
MMLU-Redux89,8 %25ᵉ / 48llm-statsAuto-déclaré
AI2D89,5 %13ᵉ / 32llm-statsAuto-déclaré
OCRBench89,5 %7ᵉ / 22llm-statsAuto-déclaré
InfoVQAtest87,0 %5ᵉ / 12llm-statsAuto-déclaré
MMLU86,4 %28ᵉ / 98llm-statsAuto-déclaré
Creative Writing v385,6 %5ᵉ / 12llm-statsAuto-déclaré
IFEval84,7 %40ᵉ / 65llm-statsAuto-déclaré
MathVista-Mini83,8 %10ᵉ / 23llm-statsAuto-déclaré
WritingBench82,9 %12ᵉ / 15llm-statsAuto-déclaré
MLVU-M82,1 %1ᵉ / 8llm-statsAuto-déclaré
CC-OCR80,3 %10ᵉ / 18llm-statsAuto-déclaré
RealWorldQA79,0 %12ᵉ / 25llm-statsAuto-déclaré
MMLU-Pro78,6 %55ᵉ / 125llm-statsAuto-déclaré
MMStar77,7 %9ᵉ / 22llm-statsAuto-déclaré
MMMU (val)76,0 %2ᵉ / 11llm-statsAuto-déclaré
Include74,0 %18ᵉ / 31llm-statsAuto-déclaré
MMLU-ProX73,4 %19ᵉ / 32llm-statsAuto-déclaré
MuirBench72,8 %6ᵉ / 11llm-statsAuto-déclaré
MVBench72,8 %8ᵉ / 17llm-statsAuto-déclaré
LiveBench 2024112572,2 %8ᵉ / 14llm-statsAuto-déclaré
Multi-IF72,0 %14ᵉ / 20llm-statsAuto-déclaré
BFCL-v370,2 %11ᵉ / 19llm-statsAuto-déclaré
GPQA68,9 %116ᵉ / 213llm-statsAuto-déclaré
OCRBench-V2 (en)67,4 %2ᵉ / 12llm-statsAuto-déclaré
BLINK67,3 %8ᵉ / 13llm-statsAuto-déclaré
AIME 202566,2 %86ᵉ / 108llm-statsAuto-déclaré
MMMU-Pro65,3 %36ᵉ / 60llm-statsAuto-déclaré
Arena-Hard v264,7 %9ᵉ / 16llm-statsAuto-déclaré
Hallusion Bench63,8 %10ᵉ / 16llm-statsAuto-déclaré
LVBench63,8 %10ᵉ / 23llm-statsAuto-déclaré
MathVision63,4 %19ᵉ / 31llm-statsAuto-déclaré
CharXiv-R62,8 %29ᵉ / 42llm-statsAuto-déclaré
CharadesSTA61,2 %6ᵉ / 12llm-statsAuto-déclaré
OCRBench-V2 (zh)59,2 %6ᵉ / 11llm-statsAuto-déclaré
ScreenSpot Pro57,9 %15ᵉ / 23llm-statsAuto-déclaré
SuperGPQA54,6 %24ᵉ / 34llm-statsAuto-déclaré
ERQA48,8 %15ᵉ / 22llm-statsAuto-déclaré
ODinW46,6 %7ᵉ / 16llm-statsAuto-déclaré
LiveCodeBench v643,8 %48ᵉ / 53llm-statsAuto-déclaré
PolyMATH40,5 %19ᵉ / 23llm-statsAuto-déclaré
OSWorld32,6 %14ᵉ / 20llm-statsAuto-déclaré
MM-MT-Bench8,4 %8ᵉ / 17llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

GPT-5100 %
▶ Qwen3 VL 32B Instruct100 %

Benchable : Ethics (Baseline)

▶ Qwen3 VL 32B Instruct100 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,104 $0,416 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 46,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable5 min 32 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 32B Instruct obtient des scores maximaux sur Benchable en General Knowledge, Ethics, Mathematics, Reasoning et Coding, avec une présence en top 10 sur ces cinq catégories. Le profil est donc particulièrement homogène pour les usages de connaissance générale, raisonnement, calcul et génération de code. Sa fenêtre de contexte de 262 144 tokens constitue aussi un atout pour traiter de longs documents ou de longues conversations sans découpage excessif. Le coût renforce ce positionnement : la tarification est annoncée 95% sous la moyenne des LLM similaires et environ 46,5 fois inférieure à celle des modèles frontière, ce qui rend le modèle compétitif pour des volumes élevés.

Limites et points d'attention. Le classement relatif est moins convaincant en Email Classification, où le modèle reste loin des meilleurs malgré un score absolu élevé. Sur GPQA, son positionnement à la sortie dans le top 42% des LLM de la même période indique un bon niveau générationnel, mais pas une domination sur les tâches les plus sélectives. Les données disponibles ne documentent pas de capacités au-delà des benchmarks listés, ni de détails d’entraînement, ce qui limite l’analyse des usages spécialisés. Profil adapté : déploiements open-weights à coût maîtrisé, avec besoins larges en raisonnement, code, mathématiques et long contexte.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).