Qwen3 VL 8B Thinking

Qwen3 VL 8B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 9 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des modèles relativement compacts à très…

Qwen3 VL 8B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 9 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des modèles relativement compacts à très long contexte.

Son positionnement est surtout économique : ses tarifs sont annoncés 94% sous la moyenne des LLM similaires et environ 41,3 fois inférieurs à ceux des modèles frontière. À sa sortie, il se situait dans le top 39% sur GPQA parmi les LLM de sa génération, selon les données disponibles.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie22 septembre 2025
Multimodaloui
Paramètres9 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)74,0 %188ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)60,0 %142ᵉ / 252benchable✅ Mesuré
Benchable : Coding (Baseline)27,1 %223ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)20,4 %217ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)18,0 %197ᵉ / 217benchable✅ Mesuré
Benchable : Ethics (Baseline)13,0 %232ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)3,0 %233ᵉ / 250benchable✅ Mesuré
DocVQAtest95,3 %7ᵉ / 11llm-statsAuto-déclaré
ScreenSpot93,6 %9ᵉ / 16llm-statsAuto-déclaré
MMLU-Redux88,8 %28ᵉ / 48llm-statsAuto-déclaré
MMBench-V1.187,5 %10ᵉ / 18llm-statsAuto-déclaré
InfoVQAtest86,0 %6ᵉ / 12llm-statsAuto-déclaré
CharXiv-D85,9 %10ᵉ / 16llm-statsAuto-déclaré
WritingBench85,5 %5ᵉ / 15llm-statsAuto-déclaré
MMLU85,2 %39ᵉ / 98llm-statsAuto-déclaré
AI2D84,9 %21ᵉ / 32llm-statsAuto-déclaré
IFEval83,2 %46ᵉ / 65llm-statsAuto-déclaré
Creative Writing v382,4 %11ᵉ / 12llm-statsAuto-déclaré
OCRBench81,9 %19ᵉ / 22llm-statsAuto-déclaré
MathVista-Mini81,4 %12ᵉ / 23llm-statsAuto-déclaré
AIME 202580,3 %66ᵉ / 108llm-statsAuto-déclaré
MMLU-Pro77,3 %62ᵉ / 125llm-statsAuto-déclaré
MuirBench76,8 %4ᵉ / 11llm-statsAuto-déclaré
CC-OCR76,3 %16ᵉ / 18llm-statsAuto-déclaré
MMStar75,3 %11ᵉ / 22llm-statsAuto-déclaré
MLVU-M75,1 %7ᵉ / 8llm-statsAuto-déclaré
Multi-IF75,1 %9ᵉ / 20llm-statsAuto-déclaré
MMMU (val)74,1 %5ᵉ / 11llm-statsAuto-déclaré
RealWorldQA73,5 %17ᵉ / 25llm-statsAuto-déclaré
VideoMMMU72,8 %21ᵉ / 26llm-statsAuto-déclaré
Video-MME71,8 %14ᵉ / 17llm-statsAuto-déclaré
MMLU-ProX70,7 %22ᵉ / 32llm-statsAuto-déclaré
GPQA69,9 %113ᵉ / 213llm-statsAuto-déclaré
LiveBench 2024112569,8 %10ᵉ / 14llm-statsAuto-déclaré
Include69,5 %22ᵉ / 31llm-statsAuto-déclaré
MVBench69,0 %15ᵉ / 17llm-statsAuto-déclaré
BLINK68,7 %5ᵉ / 13llm-statsAuto-déclaré
Hallusion Bench65,4 %8ᵉ / 16llm-statsAuto-déclaré
OCRBench-V2 (en)63,9 %6ᵉ / 12llm-statsAuto-déclaré
BFCL-v363,0 %19ᵉ / 19llm-statsAuto-déclaré
MathVision62,7 %20ᵉ / 31llm-statsAuto-déclaré
HMMT2560,6 %18ᵉ / 25llm-statsAuto-déclaré
MMMU-Pro60,4 %42ᵉ / 60llm-statsAuto-déclaré
CharadesSTA59,9 %7ᵉ / 12llm-statsAuto-déclaré
OCRBench-V2 (zh)59,2 %6ᵉ / 11llm-statsAuto-déclaré
LiveCodeBench v658,6 %38ᵉ / 53llm-statsAuto-déclaré
LVBench55,8 %17ᵉ / 23llm-statsAuto-déclaré
CharXiv-R53,0 %36ᵉ / 42llm-statsAuto-déclaré
SuperGPQA51,2 %27ᵉ / 34llm-statsAuto-déclaré
Arena-Hard v251,1 %14ᵉ / 16llm-statsAuto-déclaré
SimpleQA49,6 %15ᵉ / 45llm-statsAuto-déclaré
PolyMATH47,5 %15ᵉ / 23llm-statsAuto-déclaré
ERQA46,8 %17ᵉ / 22llm-statsAuto-déclaré
ScreenSpot Pro46,6 %20ᵉ / 23llm-statsAuto-déclaré
ODinW39,8 %15ᵉ / 16llm-statsAuto-déclaré
OSWorld33,9 %12ᵉ / 20llm-statsAuto-déclaré
MM-MT-Bench8,0 %11ᵉ / 17llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

▶ Qwen3 VL 8B Thinking98 %
WizardLM-2 8x22B95 %

Benchable : Hallucinations (Baseline)

Phi 496 %
▶ Qwen3 VL 8B Thinking74 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,117 $1,365 $n.d.
deepinfra0,18 $2,09 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 94 % en dessous de la moyenne des LLM similaires, et 41,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,13 $
Latence moyenne par benchmark — Benchable2 h 11 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 8B Thinking ressort surtout par son rapport coût-ouverture : licence Apache 2.0, poids ouverts, usage commercial autorisé et tarification très basse par rapport aux modèles comparables. Côté évaluations, son meilleur signal Benchable concerne Email Classification, où il obtient un résultat élevé et se place dans le haut du tableau relatif à cette tâche. Sa très grande fenêtre de contexte constitue aussi un élément distinctif pour un modèle de 9 milliards de paramètres. À sa sortie, son classement GPQA le situait dans une zone compétitive de sa génération, sans atteindre le niveau des meilleurs modèles haut de gamme.

Limites et points d'attention. Les résultats Benchable montrent des faiblesses nettes hors classification d'e-mails. Instruction Following reste en milieu de tableau, tandis que Coding, Reasoning et Mathematics figurent nettement plus bas dans les classements fournis. Hallucinations apparaît également comme un point fragile, avec un rang défavorable malgré un score qui peut sembler correct isolément. Le modèle paraît donc davantage adapté à des usages économiques, ouverts et orientés classification ou traitement de texte à long contexte, plutôt qu'à des tâches exigeantes de raisonnement, de code ou de mathématiques.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).