Qwen

Qwen3 VL 8B Thinking

Qwen3 VL 8B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 9 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des modèles relativement compacts à très…

Son positionnement est surtout économique : ses tarifs sont annoncés 94% sous la moyenne des LLM similaires et environ 41,3 fois inférieurs à ceux des modèles frontière. À sa sortie, il se situait dans le top 39% sur GPQA parmi les LLM de sa génération, selon les données disponibles.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Multimodal	oui
Paramètres	9 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	74,0 %	188ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	60,0 %	142ᵉ / 252	benchable	✅ Mesuré
Benchable : Coding (Baseline)	27,1 %	223ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	20,4 %	217ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	18,0 %	197ᵉ / 217	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	13,0 %	232ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	3,0 %	233ᵉ / 250	benchable	✅ Mesuré
DocVQAtest	95,3 %	7ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot	93,6 %	9ᵉ / 16	llm-stats	Auto-déclaré
MMLU-Redux	88,8 %	28ᵉ / 48	llm-stats	Auto-déclaré
MMBench-V1.1	87,5 %	10ᵉ / 18	llm-stats	Auto-déclaré
InfoVQAtest	86,0 %	6ᵉ / 12	llm-stats	Auto-déclaré
CharXiv-D	85,9 %	10ᵉ / 16	llm-stats	Auto-déclaré
WritingBench	85,5 %	5ᵉ / 15	llm-stats	Auto-déclaré
MMLU	85,2 %	39ᵉ / 98	llm-stats	Auto-déclaré
AI2D	84,9 %	21ᵉ / 32	llm-stats	Auto-déclaré
IFEval	83,2 %	46ᵉ / 65	llm-stats	Auto-déclaré
Creative Writing v3	82,4 %	11ᵉ / 12	llm-stats	Auto-déclaré
OCRBench	81,9 %	19ᵉ / 22	llm-stats	Auto-déclaré
MathVista-Mini	81,4 %	12ᵉ / 23	llm-stats	Auto-déclaré
AIME 2025	80,3 %	66ᵉ / 108	llm-stats	Auto-déclaré
MMLU-Pro	77,3 %	62ᵉ / 125	llm-stats	Auto-déclaré
MuirBench	76,8 %	4ᵉ / 11	llm-stats	Auto-déclaré
CC-OCR	76,3 %	16ᵉ / 18	llm-stats	Auto-déclaré
MMStar	75,3 %	11ᵉ / 22	llm-stats	Auto-déclaré
MLVU-M	75,1 %	7ᵉ / 8	llm-stats	Auto-déclaré
Multi-IF	75,1 %	9ᵉ / 20	llm-stats	Auto-déclaré
MMMU (val)	74,1 %	5ᵉ / 11	llm-stats	Auto-déclaré
RealWorldQA	73,5 %	17ᵉ / 25	llm-stats	Auto-déclaré
VideoMMMU	72,8 %	21ᵉ / 26	llm-stats	Auto-déclaré
Video-MME	71,8 %	14ᵉ / 17	llm-stats	Auto-déclaré
MMLU-ProX	70,7 %	22ᵉ / 32	llm-stats	Auto-déclaré
GPQA	69,9 %	113ᵉ / 213	llm-stats	Auto-déclaré
LiveBench 20241125	69,8 %	10ᵉ / 14	llm-stats	Auto-déclaré
Include	69,5 %	22ᵉ / 31	llm-stats	Auto-déclaré
MVBench	69,0 %	15ᵉ / 17	llm-stats	Auto-déclaré
BLINK	68,7 %	5ᵉ / 13	llm-stats	Auto-déclaré
Hallusion Bench	65,4 %	8ᵉ / 16	llm-stats	Auto-déclaré
OCRBench-V2 (en)	63,9 %	6ᵉ / 12	llm-stats	Auto-déclaré
BFCL-v3	63,0 %	19ᵉ / 19	llm-stats	Auto-déclaré
MathVision	62,7 %	20ᵉ / 31	llm-stats	Auto-déclaré
HMMT25	60,6 %	18ᵉ / 25	llm-stats	Auto-déclaré
MMMU-Pro	60,4 %	42ᵉ / 60	llm-stats	Auto-déclaré
CharadesSTA	59,9 %	7ᵉ / 12	llm-stats	Auto-déclaré
OCRBench-V2 (zh)	59,2 %	6ᵉ / 11	llm-stats	Auto-déclaré
LiveCodeBench v6	58,6 %	38ᵉ / 53	llm-stats	Auto-déclaré
LVBench	55,8 %	17ᵉ / 23	llm-stats	Auto-déclaré
CharXiv-R	53,0 %	36ᵉ / 42	llm-stats	Auto-déclaré
SuperGPQA	51,2 %	27ᵉ / 34	llm-stats	Auto-déclaré
Arena-Hard v2	51,1 %	14ᵉ / 16	llm-stats	Auto-déclaré
SimpleQA	49,6 %	15ᵉ / 45	llm-stats	Auto-déclaré
PolyMATH	47,5 %	15ᵉ / 23	llm-stats	Auto-déclaré
ERQA	46,8 %	17ᵉ / 22	llm-stats	Auto-déclaré
ScreenSpot Pro	46,6 %	20ᵉ / 23	llm-stats	Auto-déclaré
ODinW	39,8 %	15ᵉ / 16	llm-stats	Auto-déclaré
OSWorld	33,9 %	12ᵉ / 20	llm-stats	Auto-déclaré
MM-MT-Bench	8,0 %	11ᵉ / 17	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Qwen3 VL 8B Thinking98 %

WizardLM-2 8x22B95 %

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Phi 496 %

▶ Qwen3 VL 8B Thinking74 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,117 $	1,365 $	n.d.
deepinfra	0,18 $	2,09 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 94 % en dessous de la moyenne des LLM similaires, et 41,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,13 $
Latence moyenne par benchmark — Benchable	2 h 11 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 8B Thinking ressort surtout par son rapport coût-ouverture : licence Apache 2.0, poids ouverts, usage commercial autorisé et tarification très basse par rapport aux modèles comparables. Côté évaluations, son meilleur signal Benchable concerne Email Classification, où il obtient un résultat élevé et se place dans le haut du tableau relatif à cette tâche. Sa très grande fenêtre de contexte constitue aussi un élément distinctif pour un modèle de 9 milliards de paramètres. À sa sortie, son classement GPQA le situait dans une zone compétitive de sa génération, sans atteindre le niveau des meilleurs modèles haut de gamme.

Limites et points d'attention. Les résultats Benchable montrent des faiblesses nettes hors classification d'e-mails. Instruction Following reste en milieu de tableau, tandis que Coding, Reasoning et Mathematics figurent nettement plus bas dans les classements fournis. Hallucinations apparaît également comme un point fragile, avec un rang défavorable malgré un score qui peut sembler correct isolément. Le modèle paraît donc davantage adapté à des usages économiques, ouverts et orientés classification ou traitement de texte à long contexte, plutôt qu'à des tâches exigeantes de raisonnement, de code ou de mathématiques.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Qwen3 VL 8B Thinking

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast