Qwen3 VL 8B Instruct

Qwen3 VL 8B Instruct est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Son positionnement combine un format relativement compact, 9 milliards de paramètres, et une très grande fenêtre de contexte de 262 144 tokens.

Qwen3 VL 8B Instruct est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Son positionnement combine un format relativement compact, 9 milliards de paramètres, et une très grande fenêtre de contexte de 262 144 tokens.

Le modèle se distingue surtout par son coût très bas : sa tarification est indiquée 96% sous la moyenne des LLM similaires et environ 60.4 fois moins chère que les modèles frontière. À sa sortie, il se situait dans la première moitié de sa génération sur MMLU-Pro.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie22 septembre 2025
Multimodaloui
Paramètres9 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,video → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)96,0 %175ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)95,0 %207ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)87,1 %134ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)65,1 %156ᵉ / 239benchable✅ Mesuré
Benchable : Hallucinations (Baseline)58,0 %205ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)56,2 %152ᵉ / 252benchable✅ Mesuré
Benchable : Mathematics (Baseline)42,5 %186ᵉ / 217benchable✅ Mesuré
DocVQAtest96,1 %5ᵉ / 11llm-statsAuto-déclaré
ScreenSpot94,4 %7ᵉ / 16llm-statsAuto-déclaré
OCRBench89,6 %6ᵉ / 22llm-statsAuto-déclaré
AI2D85,7 %19ᵉ / 32llm-statsAuto-déclaré
MMBench-V1.185,0 %14ᵉ / 18llm-statsAuto-déclaré
MMLU-Redux84,9 %34ᵉ / 48llm-statsAuto-déclaré
IFEval83,7 %44ᵉ / 65llm-statsAuto-déclaré
InfoVQAtest83,1 %9ᵉ / 12llm-statsAuto-déclaré
WritingBench83,1 %11ᵉ / 15llm-statsAuto-déclaré
CharXiv-D83,0 %14ᵉ / 16llm-statsAuto-déclaré
MMLU80,7 %54ᵉ / 98llm-statsAuto-déclaré
CC-OCR79,9 %11ᵉ / 18llm-statsAuto-déclaré
MLVU-M78,1 %4ᵉ / 8llm-statsAuto-déclaré
MathVista-Mini77,2 %15ᵉ / 23llm-statsAuto-déclaré
Multi-IF75,1 %9ᵉ / 20llm-statsAuto-déclaré
MMLU-Pro71,6 %75ᵉ / 125llm-statsAuto-déclaré
RealWorldQA71,5 %19ᵉ / 25llm-statsAuto-déclaré
Video-MME71,4 %15ᵉ / 17llm-statsAuto-déclaré
MMStar70,9 %14ᵉ / 22llm-statsAuto-déclaré
MMMU (val)69,6 %7ᵉ / 11llm-statsAuto-déclaré
BLINK69,1 %4ᵉ / 13llm-statsAuto-déclaré
MVBench68,7 %17ᵉ / 17llm-statsAuto-déclaré
Include67,0 %23ᵉ / 31llm-statsAuto-déclaré
BFCL-v366,3 %16ᵉ / 19llm-statsAuto-déclaré
MMLU-ProX65,4 %23ᵉ / 32llm-statsAuto-déclaré
OCRBench-V2 (en)65,4 %5ᵉ / 12llm-statsAuto-déclaré
VideoMMMU65,3 %24ᵉ / 26llm-statsAuto-déclaré
MuirBench64,4 %8ᵉ / 11llm-statsAuto-déclaré
LiveBench 2024112562,0 %13ᵉ / 14llm-statsAuto-déclaré
OCRBench-V2 (zh)61,2 %4ᵉ / 11llm-statsAuto-déclaré
Hallusion Bench61,1 %13ᵉ / 16llm-statsAuto-déclaré
LVBench58,0 %15ᵉ / 23llm-statsAuto-déclaré
CharadesSTA56,0 %9ᵉ / 12llm-statsAuto-déclaré
MMMU-Pro55,9 %48ᵉ / 60llm-statsAuto-déclaré
ScreenSpot Pro54,6 %18ᵉ / 23llm-statsAuto-déclaré
MathVision53,9 %24ᵉ / 31llm-statsAuto-déclaré
CharXiv-R46,4 %40ᵉ / 42llm-statsAuto-déclaré
AIME 202545,9 %101ᵉ / 108llm-statsAuto-déclaré
ERQA45,8 %18ᵉ / 22llm-statsAuto-déclaré
ODinW44,7 %8ᵉ / 16llm-statsAuto-déclaré
SuperGPQA44,5 %30ᵉ / 34llm-statsAuto-déclaré
LiveCodeBench v639,3 %51ᵉ / 53llm-statsAuto-déclaré
OSWorld33,9 %12ᵉ / 20llm-statsAuto-déclaré
HMMT2532,5 %24ᵉ / 25llm-statsAuto-déclaré
PolyMATH30,4 %20ᵉ / 23llm-statsAuto-déclaré
MM-MT-Bench7,7 %14ᵉ / 17llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

▶ Qwen3 VL 8B Instruct99 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
Phi 497 %
▶ Qwen3 VL 8B Instruct96 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
NovitaAI0,08 $0,5 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 60,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable1 h 31 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 8B Instruct affiche ses meilleurs résultats sur Ethics, General Knowledge et Email Classification, avec des scores absolus élevés sur ces tâches de référence. Le niveau en Coding apparaît également solide pour un modèle de 9 milliards de paramètres, ce qui renforce son intérêt dans les scénarios où le coût d’inférence compte autant que la performance. Sa fenêtre de contexte très large constitue un atout concret pour traiter de longs documents, des historiques étendus ou des lots de contenus sans découpage excessif. La licence Apache 2.0 et le statut open-weights facilitent aussi les déploiements commerciaux et les adaptations internes.

Limites et points d'attention. Les rangs Benchable placent le modèle loin des meilleurs sur plusieurs axes, malgré de bons scores bruts sur certaines tâches. Reasoning reste en retrait, et Hallucinations figure parmi ses points faibles, ce qui impose une validation des réponses dans les usages sensibles. Son classement à la sortie sur MMLU-Pro le situe dans la première moitié, sans en faire un modèle de tête de génération. Qwen3 VL 8B Instruct vise surtout les usages économiques à grand contexte, avec besoin d’open-weights, plutôt que les tâches exigeant le plus haut niveau de raisonnement ou de fiabilité factuelle.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).