Qwen3 VL 8B Instruct
Qwen3 VL 8B Instruct est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Son positionnement combine un format relativement compact, 9 milliards de paramètres, et une très grande fenêtre de contexte de 262 144 tokens.
Qwen3 VL 8B Instruct est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Son positionnement combine un format relativement compact, 9 milliards de paramètres, et une très grande fenêtre de contexte de 262 144 tokens.
Le modèle se distingue surtout par son coût très bas : sa tarification est indiquée 96% sous la moyenne des LLM similaires et environ 60.4 fois moins chère que les modèles frontière. À sa sortie, il se situait dans la première moitié de sa génération sur MMLU-Pro.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 22 septembre 2025 |
| Multimodal | oui |
| Paramètres | 9 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 96,0 % | 175ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 95,0 % | 207ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 87,1 % | 134ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 65,1 % | 156ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 58,0 % | 205ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 56,2 % | 152ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 42,5 % | 186ᵉ / 217 | benchable | ✅ Mesuré |
| DocVQAtest | 96,1 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot | 94,4 % | 7ᵉ / 16 | llm-stats | Auto-déclaré |
| OCRBench | 89,6 % | 6ᵉ / 22 | llm-stats | Auto-déclaré |
| AI2D | 85,7 % | 19ᵉ / 32 | llm-stats | Auto-déclaré |
| MMBench-V1.1 | 85,0 % | 14ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU-Redux | 84,9 % | 34ᵉ / 48 | llm-stats | Auto-déclaré |
| IFEval | 83,7 % | 44ᵉ / 65 | llm-stats | Auto-déclaré |
| InfoVQAtest | 83,1 % | 9ᵉ / 12 | llm-stats | Auto-déclaré |
| WritingBench | 83,1 % | 11ᵉ / 15 | llm-stats | Auto-déclaré |
| CharXiv-D | 83,0 % | 14ᵉ / 16 | llm-stats | Auto-déclaré |
| MMLU | 80,7 % | 54ᵉ / 98 | llm-stats | Auto-déclaré |
| CC-OCR | 79,9 % | 11ᵉ / 18 | llm-stats | Auto-déclaré |
| MLVU-M | 78,1 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| MathVista-Mini | 77,2 % | 15ᵉ / 23 | llm-stats | Auto-déclaré |
| Multi-IF | 75,1 % | 9ᵉ / 20 | llm-stats | Auto-déclaré |
| MMLU-Pro | 71,6 % | 75ᵉ / 125 | llm-stats | Auto-déclaré |
| RealWorldQA | 71,5 % | 19ᵉ / 25 | llm-stats | Auto-déclaré |
| Video-MME | 71,4 % | 15ᵉ / 17 | llm-stats | Auto-déclaré |
| MMStar | 70,9 % | 14ᵉ / 22 | llm-stats | Auto-déclaré |
| MMMU (val) | 69,6 % | 7ᵉ / 11 | llm-stats | Auto-déclaré |
| BLINK | 69,1 % | 4ᵉ / 13 | llm-stats | Auto-déclaré |
| MVBench | 68,7 % | 17ᵉ / 17 | llm-stats | Auto-déclaré |
| Include | 67,0 % | 23ᵉ / 31 | llm-stats | Auto-déclaré |
| BFCL-v3 | 66,3 % | 16ᵉ / 19 | llm-stats | Auto-déclaré |
| MMLU-ProX | 65,4 % | 23ᵉ / 32 | llm-stats | Auto-déclaré |
| OCRBench-V2 (en) | 65,4 % | 5ᵉ / 12 | llm-stats | Auto-déclaré |
| VideoMMMU | 65,3 % | 24ᵉ / 26 | llm-stats | Auto-déclaré |
| MuirBench | 64,4 % | 8ᵉ / 11 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 62,0 % | 13ᵉ / 14 | llm-stats | Auto-déclaré |
| OCRBench-V2 (zh) | 61,2 % | 4ᵉ / 11 | llm-stats | Auto-déclaré |
| Hallusion Bench | 61,1 % | 13ᵉ / 16 | llm-stats | Auto-déclaré |
| LVBench | 58,0 % | 15ᵉ / 23 | llm-stats | Auto-déclaré |
| CharadesSTA | 56,0 % | 9ᵉ / 12 | llm-stats | Auto-déclaré |
| MMMU-Pro | 55,9 % | 48ᵉ / 60 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 54,6 % | 18ᵉ / 23 | llm-stats | Auto-déclaré |
| MathVision | 53,9 % | 24ᵉ / 31 | llm-stats | Auto-déclaré |
| CharXiv-R | 46,4 % | 40ᵉ / 42 | llm-stats | Auto-déclaré |
| AIME 2025 | 45,9 % | 101ᵉ / 108 | llm-stats | Auto-déclaré |
| ERQA | 45,8 % | 18ᵉ / 22 | llm-stats | Auto-déclaré |
| ODinW | 44,7 % | 8ᵉ / 16 | llm-stats | Auto-déclaré |
| SuperGPQA | 44,5 % | 30ᵉ / 34 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 39,3 % | 51ᵉ / 53 | llm-stats | Auto-déclaré |
| OSWorld | 33,9 % | 12ᵉ / 20 | llm-stats | Auto-déclaré |
| HMMT25 | 32,5 % | 24ᵉ / 25 | llm-stats | Auto-déclaré |
| PolyMATH | 30,4 % | 20ᵉ / 23 | llm-stats | Auto-déclaré |
| MM-MT-Bench | 7,7 % | 14ᵉ / 17 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| NovitaAI | 0,08 $ | 0,5 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 60,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 1 h 31 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3 VL 8B Instruct affiche ses meilleurs résultats sur Ethics, General Knowledge et Email Classification, avec des scores absolus élevés sur ces tâches de référence. Le niveau en Coding apparaît également solide pour un modèle de 9 milliards de paramètres, ce qui renforce son intérêt dans les scénarios où le coût d’inférence compte autant que la performance. Sa fenêtre de contexte très large constitue un atout concret pour traiter de longs documents, des historiques étendus ou des lots de contenus sans découpage excessif. La licence Apache 2.0 et le statut open-weights facilitent aussi les déploiements commerciaux et les adaptations internes.
Limites et points d'attention. Les rangs Benchable placent le modèle loin des meilleurs sur plusieurs axes, malgré de bons scores bruts sur certaines tâches. Reasoning reste en retrait, et Hallucinations figure parmi ses points faibles, ce qui impose une validation des réponses dans les usages sensibles. Son classement à la sortie sur MMLU-Pro le situe dans la première moitié, sans en faire un modèle de tête de génération. Qwen3 VL 8B Instruct vise surtout les usages économiques à grand contexte, avec besoin d’open-weights, plutôt que les tâches exigeant le plus haut niveau de raisonnement ou de fiabilité factuelle.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).