Qwen3 VL 32B Instruct
Qwen3 VL 32B Instruct est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Le modèle se place dans une catégorie rare : 33 milliards de paramètres, une très grande fenêtre de contexte et un positionnement tarifaire très…
Qwen3 VL 32B Instruct est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Le modèle se place dans une catégorie rare : 33 milliards de paramètres, une très grande fenêtre de contexte et un positionnement tarifaire très économique.
Son intérêt tient surtout au rapport entre accès ouvert, coût d’inférence bas et résultats Benchable solides sur plusieurs tâches générales. À sa sortie, il se situait dans le top 42% des LLM de sa génération sur GPQA, ce qui le place dans la moitié supérieure de son époque sans en faire un modèle frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 22 septembre 2025 |
| Multimodal | oui |
| Paramètres | 33 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 100,0 % | 1ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,5 % | 161ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 95,5 % | 123ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 67,5 % | 105ᵉ / 252 | benchable | ✅ Mesuré |
| DocVQAtest | 96,9 % | 2ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot | 95,8 % | 1ᵉ / 16 | llm-stats | Auto-déclaré |
| CharXiv-D | 90,5 % | 3ᵉ / 16 | llm-stats | Auto-déclaré |
| MMLU-Redux | 89,8 % | 25ᵉ / 48 | llm-stats | Auto-déclaré |
| AI2D | 89,5 % | 13ᵉ / 32 | llm-stats | Auto-déclaré |
| OCRBench | 89,5 % | 7ᵉ / 22 | llm-stats | Auto-déclaré |
| InfoVQAtest | 87,0 % | 5ᵉ / 12 | llm-stats | Auto-déclaré |
| MMLU | 86,4 % | 28ᵉ / 98 | llm-stats | Auto-déclaré |
| Creative Writing v3 | 85,6 % | 5ᵉ / 12 | llm-stats | Auto-déclaré |
| IFEval | 84,7 % | 40ᵉ / 65 | llm-stats | Auto-déclaré |
| MathVista-Mini | 83,8 % | 10ᵉ / 23 | llm-stats | Auto-déclaré |
| WritingBench | 82,9 % | 12ᵉ / 15 | llm-stats | Auto-déclaré |
| MLVU-M | 82,1 % | 1ᵉ / 8 | llm-stats | Auto-déclaré |
| CC-OCR | 80,3 % | 10ᵉ / 18 | llm-stats | Auto-déclaré |
| RealWorldQA | 79,0 % | 12ᵉ / 25 | llm-stats | Auto-déclaré |
| MMLU-Pro | 78,6 % | 55ᵉ / 125 | llm-stats | Auto-déclaré |
| MMStar | 77,7 % | 9ᵉ / 22 | llm-stats | Auto-déclaré |
| MMMU (val) | 76,0 % | 2ᵉ / 11 | llm-stats | Auto-déclaré |
| Include | 74,0 % | 18ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU-ProX | 73,4 % | 19ᵉ / 32 | llm-stats | Auto-déclaré |
| MuirBench | 72,8 % | 6ᵉ / 11 | llm-stats | Auto-déclaré |
| MVBench | 72,8 % | 8ᵉ / 17 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 72,2 % | 8ᵉ / 14 | llm-stats | Auto-déclaré |
| Multi-IF | 72,0 % | 14ᵉ / 20 | llm-stats | Auto-déclaré |
| BFCL-v3 | 70,2 % | 11ᵉ / 19 | llm-stats | Auto-déclaré |
| GPQA | 68,9 % | 116ᵉ / 213 | llm-stats | Auto-déclaré |
| OCRBench-V2 (en) | 67,4 % | 2ᵉ / 12 | llm-stats | Auto-déclaré |
| BLINK | 67,3 % | 8ᵉ / 13 | llm-stats | Auto-déclaré |
| AIME 2025 | 66,2 % | 86ᵉ / 108 | llm-stats | Auto-déclaré |
| MMMU-Pro | 65,3 % | 36ᵉ / 60 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 64,7 % | 9ᵉ / 16 | llm-stats | Auto-déclaré |
| Hallusion Bench | 63,8 % | 10ᵉ / 16 | llm-stats | Auto-déclaré |
| LVBench | 63,8 % | 10ᵉ / 23 | llm-stats | Auto-déclaré |
| MathVision | 63,4 % | 19ᵉ / 31 | llm-stats | Auto-déclaré |
| CharXiv-R | 62,8 % | 29ᵉ / 42 | llm-stats | Auto-déclaré |
| CharadesSTA | 61,2 % | 6ᵉ / 12 | llm-stats | Auto-déclaré |
| OCRBench-V2 (zh) | 59,2 % | 6ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 57,9 % | 15ᵉ / 23 | llm-stats | Auto-déclaré |
| SuperGPQA | 54,6 % | 24ᵉ / 34 | llm-stats | Auto-déclaré |
| ERQA | 48,8 % | 15ᵉ / 22 | llm-stats | Auto-déclaré |
| ODinW | 46,6 % | 7ᵉ / 16 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 43,8 % | 48ᵉ / 53 | llm-stats | Auto-déclaré |
| PolyMATH | 40,5 % | 19ᵉ / 23 | llm-stats | Auto-déclaré |
| OSWorld | 32,6 % | 14ᵉ / 20 | llm-stats | Auto-déclaré |
| MM-MT-Bench | 8,4 % | 8ᵉ / 17 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : General Knowledge (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,104 $ | 0,416 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 46,5 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 5 min 32 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3 VL 32B Instruct obtient des scores maximaux sur Benchable en General Knowledge, Ethics, Mathematics, Reasoning et Coding, avec une présence en top 10 sur ces cinq catégories. Le profil est donc particulièrement homogène pour les usages de connaissance générale, raisonnement, calcul et génération de code. Sa fenêtre de contexte de 262 144 tokens constitue aussi un atout pour traiter de longs documents ou de longues conversations sans découpage excessif. Le coût renforce ce positionnement : la tarification est annoncée 95% sous la moyenne des LLM similaires et environ 46,5 fois inférieure à celle des modèles frontière, ce qui rend le modèle compétitif pour des volumes élevés.
Limites et points d'attention. Le classement relatif est moins convaincant en Email Classification, où le modèle reste loin des meilleurs malgré un score absolu élevé. Sur GPQA, son positionnement à la sortie dans le top 42% des LLM de la même période indique un bon niveau générationnel, mais pas une domination sur les tâches les plus sélectives. Les données disponibles ne documentent pas de capacités au-delà des benchmarks listés, ni de détails d’entraînement, ce qui limite l’analyse des usages spécialisés. Profil adapté : déploiements open-weights à coût maîtrisé, avec besoins larges en raisonnement, code, mathématiques et long contexte.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).