Qwen3 VL 8B Thinking
Qwen3 VL 8B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 9 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des modèles relativement compacts à très…
Qwen3 VL 8B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 9 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des modèles relativement compacts à très long contexte.
Son positionnement est surtout économique : ses tarifs sont annoncés 94% sous la moyenne des LLM similaires et environ 41,3 fois inférieurs à ceux des modèles frontière. À sa sortie, il se situait dans le top 39% sur GPQA parmi les LLM de sa génération, selon les données disponibles.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 22 septembre 2025 |
| Multimodal | oui |
| Paramètres | 9 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 74,0 % | 188ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 60,0 % | 142ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 27,1 % | 223ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 20,4 % | 217ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 18,0 % | 197ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 13,0 % | 232ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 3,0 % | 233ᵉ / 250 | benchable | ✅ Mesuré |
| DocVQAtest | 95,3 % | 7ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot | 93,6 % | 9ᵉ / 16 | llm-stats | Auto-déclaré |
| MMLU-Redux | 88,8 % | 28ᵉ / 48 | llm-stats | Auto-déclaré |
| MMBench-V1.1 | 87,5 % | 10ᵉ / 18 | llm-stats | Auto-déclaré |
| InfoVQAtest | 86,0 % | 6ᵉ / 12 | llm-stats | Auto-déclaré |
| CharXiv-D | 85,9 % | 10ᵉ / 16 | llm-stats | Auto-déclaré |
| WritingBench | 85,5 % | 5ᵉ / 15 | llm-stats | Auto-déclaré |
| MMLU | 85,2 % | 39ᵉ / 98 | llm-stats | Auto-déclaré |
| AI2D | 84,9 % | 21ᵉ / 32 | llm-stats | Auto-déclaré |
| IFEval | 83,2 % | 46ᵉ / 65 | llm-stats | Auto-déclaré |
| Creative Writing v3 | 82,4 % | 11ᵉ / 12 | llm-stats | Auto-déclaré |
| OCRBench | 81,9 % | 19ᵉ / 22 | llm-stats | Auto-déclaré |
| MathVista-Mini | 81,4 % | 12ᵉ / 23 | llm-stats | Auto-déclaré |
| AIME 2025 | 80,3 % | 66ᵉ / 108 | llm-stats | Auto-déclaré |
| MMLU-Pro | 77,3 % | 62ᵉ / 125 | llm-stats | Auto-déclaré |
| MuirBench | 76,8 % | 4ᵉ / 11 | llm-stats | Auto-déclaré |
| CC-OCR | 76,3 % | 16ᵉ / 18 | llm-stats | Auto-déclaré |
| MMStar | 75,3 % | 11ᵉ / 22 | llm-stats | Auto-déclaré |
| MLVU-M | 75,1 % | 7ᵉ / 8 | llm-stats | Auto-déclaré |
| Multi-IF | 75,1 % | 9ᵉ / 20 | llm-stats | Auto-déclaré |
| MMMU (val) | 74,1 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| RealWorldQA | 73,5 % | 17ᵉ / 25 | llm-stats | Auto-déclaré |
| VideoMMMU | 72,8 % | 21ᵉ / 26 | llm-stats | Auto-déclaré |
| Video-MME | 71,8 % | 14ᵉ / 17 | llm-stats | Auto-déclaré |
| MMLU-ProX | 70,7 % | 22ᵉ / 32 | llm-stats | Auto-déclaré |
| GPQA | 69,9 % | 113ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 69,8 % | 10ᵉ / 14 | llm-stats | Auto-déclaré |
| Include | 69,5 % | 22ᵉ / 31 | llm-stats | Auto-déclaré |
| MVBench | 69,0 % | 15ᵉ / 17 | llm-stats | Auto-déclaré |
| BLINK | 68,7 % | 5ᵉ / 13 | llm-stats | Auto-déclaré |
| Hallusion Bench | 65,4 % | 8ᵉ / 16 | llm-stats | Auto-déclaré |
| OCRBench-V2 (en) | 63,9 % | 6ᵉ / 12 | llm-stats | Auto-déclaré |
| BFCL-v3 | 63,0 % | 19ᵉ / 19 | llm-stats | Auto-déclaré |
| MathVision | 62,7 % | 20ᵉ / 31 | llm-stats | Auto-déclaré |
| HMMT25 | 60,6 % | 18ᵉ / 25 | llm-stats | Auto-déclaré |
| MMMU-Pro | 60,4 % | 42ᵉ / 60 | llm-stats | Auto-déclaré |
| CharadesSTA | 59,9 % | 7ᵉ / 12 | llm-stats | Auto-déclaré |
| OCRBench-V2 (zh) | 59,2 % | 6ᵉ / 11 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 58,6 % | 38ᵉ / 53 | llm-stats | Auto-déclaré |
| LVBench | 55,8 % | 17ᵉ / 23 | llm-stats | Auto-déclaré |
| CharXiv-R | 53,0 % | 36ᵉ / 42 | llm-stats | Auto-déclaré |
| SuperGPQA | 51,2 % | 27ᵉ / 34 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 51,1 % | 14ᵉ / 16 | llm-stats | Auto-déclaré |
| SimpleQA | 49,6 % | 15ᵉ / 45 | llm-stats | Auto-déclaré |
| PolyMATH | 47,5 % | 15ᵉ / 23 | llm-stats | Auto-déclaré |
| ERQA | 46,8 % | 17ᵉ / 22 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 46,6 % | 20ᵉ / 23 | llm-stats | Auto-déclaré |
| ODinW | 39,8 % | 15ᵉ / 16 | llm-stats | Auto-déclaré |
| OSWorld | 33,9 % | 12ᵉ / 20 | llm-stats | Auto-déclaré |
| MM-MT-Bench | 8,0 % | 11ᵉ / 17 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Hallucinations (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,117 $ | 1,365 $ | n.d. |
| deepinfra | 0,18 $ | 2,09 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 94 % en dessous de la moyenne des LLM similaires, et 41,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,13 $ |
| Latence moyenne par benchmark — Benchable | 2 h 11 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3 VL 8B Thinking ressort surtout par son rapport coût-ouverture : licence Apache 2.0, poids ouverts, usage commercial autorisé et tarification très basse par rapport aux modèles comparables. Côté évaluations, son meilleur signal Benchable concerne Email Classification, où il obtient un résultat élevé et se place dans le haut du tableau relatif à cette tâche. Sa très grande fenêtre de contexte constitue aussi un élément distinctif pour un modèle de 9 milliards de paramètres. À sa sortie, son classement GPQA le situait dans une zone compétitive de sa génération, sans atteindre le niveau des meilleurs modèles haut de gamme.
Limites et points d'attention. Les résultats Benchable montrent des faiblesses nettes hors classification d'e-mails. Instruction Following reste en milieu de tableau, tandis que Coding, Reasoning et Mathematics figurent nettement plus bas dans les classements fournis. Hallucinations apparaît également comme un point fragile, avec un rang défavorable malgré un score qui peut sembler correct isolément. Le modèle paraît donc davantage adapté à des usages économiques, ouverts et orientés classification ou traitement de texte à long contexte, plutôt qu'à des tâches exigeantes de raisonnement, de code ou de mathématiques.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).