Qwen

Qwen3 VL 8B Instruct

Qwen3 VL 8B Instruct est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Son positionnement combine un format relativement compact, 9 milliards de paramètres, et une très grande fenêtre de contexte de 262 144 tokens.

Le modèle se distingue surtout par son coût très bas : sa tarification est indiquée 96% sous la moyenne des LLM similaires et environ 60.4 fois moins chère que les modèles frontière. À sa sortie, il se situait dans la première moitié de sa génération sur MMLU-Pro.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Multimodal	oui
Paramètres	9 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image,video → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	96,0 %	175ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	95,0 %	207ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	87,1 %	134ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	65,1 %	156ᵉ / 239	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	58,0 %	205ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	56,2 %	152ᵉ / 252	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	42,5 %	186ᵉ / 217	benchable	✅ Mesuré
DocVQAtest	96,1 %	5ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot	94,4 %	7ᵉ / 16	llm-stats	Auto-déclaré
OCRBench	89,6 %	6ᵉ / 22	llm-stats	Auto-déclaré
AI2D	85,7 %	19ᵉ / 32	llm-stats	Auto-déclaré
MMBench-V1.1	85,0 %	14ᵉ / 18	llm-stats	Auto-déclaré
MMLU-Redux	84,9 %	34ᵉ / 48	llm-stats	Auto-déclaré
IFEval	83,7 %	44ᵉ / 65	llm-stats	Auto-déclaré
InfoVQAtest	83,1 %	9ᵉ / 12	llm-stats	Auto-déclaré
WritingBench	83,1 %	11ᵉ / 15	llm-stats	Auto-déclaré
CharXiv-D	83,0 %	14ᵉ / 16	llm-stats	Auto-déclaré
MMLU	80,7 %	54ᵉ / 98	llm-stats	Auto-déclaré
CC-OCR	79,9 %	11ᵉ / 18	llm-stats	Auto-déclaré
MLVU-M	78,1 %	4ᵉ / 8	llm-stats	Auto-déclaré
MathVista-Mini	77,2 %	15ᵉ / 23	llm-stats	Auto-déclaré
Multi-IF	75,1 %	9ᵉ / 20	llm-stats	Auto-déclaré
MMLU-Pro	71,6 %	75ᵉ / 125	llm-stats	Auto-déclaré
RealWorldQA	71,5 %	19ᵉ / 25	llm-stats	Auto-déclaré
Video-MME	71,4 %	15ᵉ / 17	llm-stats	Auto-déclaré
MMStar	70,9 %	14ᵉ / 22	llm-stats	Auto-déclaré
MMMU (val)	69,6 %	7ᵉ / 11	llm-stats	Auto-déclaré
BLINK	69,1 %	4ᵉ / 13	llm-stats	Auto-déclaré
MVBench	68,7 %	17ᵉ / 17	llm-stats	Auto-déclaré
Include	67,0 %	23ᵉ / 31	llm-stats	Auto-déclaré
BFCL-v3	66,3 %	16ᵉ / 19	llm-stats	Auto-déclaré
MMLU-ProX	65,4 %	23ᵉ / 32	llm-stats	Auto-déclaré
OCRBench-V2 (en)	65,4 %	5ᵉ / 12	llm-stats	Auto-déclaré
VideoMMMU	65,3 %	24ᵉ / 26	llm-stats	Auto-déclaré
MuirBench	64,4 %	8ᵉ / 11	llm-stats	Auto-déclaré
LiveBench 20241125	62,0 %	13ᵉ / 14	llm-stats	Auto-déclaré
OCRBench-V2 (zh)	61,2 %	4ᵉ / 11	llm-stats	Auto-déclaré
Hallusion Bench	61,1 %	13ᵉ / 16	llm-stats	Auto-déclaré
LVBench	58,0 %	15ᵉ / 23	llm-stats	Auto-déclaré
CharadesSTA	56,0 %	9ᵉ / 12	llm-stats	Auto-déclaré
MMMU-Pro	55,9 %	48ᵉ / 60	llm-stats	Auto-déclaré
ScreenSpot Pro	54,6 %	18ᵉ / 23	llm-stats	Auto-déclaré
MathVision	53,9 %	24ᵉ / 31	llm-stats	Auto-déclaré
CharXiv-R	46,4 %	40ᵉ / 42	llm-stats	Auto-déclaré
AIME 2025	45,9 %	101ᵉ / 108	llm-stats	Auto-déclaré
ERQA	45,8 %	18ᵉ / 22	llm-stats	Auto-déclaré
ODinW	44,7 %	8ᵉ / 16	llm-stats	Auto-déclaré
SuperGPQA	44,5 %	30ᵉ / 34	llm-stats	Auto-déclaré
LiveCodeBench v6	39,3 %	51ᵉ / 53	llm-stats	Auto-déclaré
OSWorld	33,9 %	12ᵉ / 20	llm-stats	Auto-déclaré
HMMT25	32,5 %	24ᵉ / 25	llm-stats	Auto-déclaré
PolyMATH	30,4 %	20ᵉ / 23	llm-stats	Auto-déclaré
MM-MT-Bench	7,7 %	14ᵉ / 17	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Qwen3 VL 8B Instruct99 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

Phi 497 %

▶ Qwen3 VL 8B Instruct96 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
NovitaAI	0,08 $	0,5 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 60,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	1 h 31 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 8B Instruct affiche ses meilleurs résultats sur Ethics, General Knowledge et Email Classification, avec des scores absolus élevés sur ces tâches de référence. Le niveau en Coding apparaît également solide pour un modèle de 9 milliards de paramètres, ce qui renforce son intérêt dans les scénarios où le coût d’inférence compte autant que la performance. Sa fenêtre de contexte très large constitue un atout concret pour traiter de longs documents, des historiques étendus ou des lots de contenus sans découpage excessif. La licence Apache 2.0 et le statut open-weights facilitent aussi les déploiements commerciaux et les adaptations internes.

Limites et points d'attention. Les rangs Benchable placent le modèle loin des meilleurs sur plusieurs axes, malgré de bons scores bruts sur certaines tâches. Reasoning reste en retrait, et Hallucinations figure parmi ses points faibles, ce qui impose une validation des réponses dans les usages sensibles. Son classement à la sortie sur MMLU-Pro le situe dans la première moitié, sans en faire un modèle de tête de génération. Qwen3 VL 8B Instruct vise surtout les usages économiques à grand contexte, avec besoin d’open-weights, plutôt que les tâches exigeant le plus haut niveau de raisonnement ou de fiabilité factuelle.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Qwen3 VL 8B Instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast