Qwen3 VL 4B Thinking
Qwen3 VL 4B Thinking est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Son positionnement combine un format compact de 4 milliards de paramètres, une très grande fenêtre de contexte et un coût d’accès très bas.
Qwen3 VL 4B Thinking est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Son positionnement combine un format compact de 4 milliards de paramètres, une très grande fenêtre de contexte et un coût d’accès très bas.
Le modèle se distingue surtout par son économie d’usage : sa tarification est annoncée 95% sous la moyenne des LLM similaires et environ 48,3 fois moins chère que celle des modèles frontière. À sa sortie, son résultat GPQA le plaçait dans le top 53% des LLM de sa génération.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 22 septembre 2025 |
| Multimodal | oui |
| Paramètres | 4 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| DocVQAtest | 94,2 % | 11ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot | 92,9 % | 10ᵉ / 16 | llm-stats | Auto-déclaré |
| MMBench-V1.1 | 86,7 % | 12ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU-Redux | 86,0 % | 33ᵉ / 48 | llm-stats | Auto-déclaré |
| AI2D | 84,9 % | 21ᵉ / 32 | llm-stats | Auto-déclaré |
| WritingBench | 84,0 % | 10ᵉ / 15 | llm-stats | Auto-déclaré |
| CharXiv-D | 83,9 % | 13ᵉ / 16 | llm-stats | Auto-déclaré |
| InfoVQAtest | 83,0 % | 10ᵉ / 12 | llm-stats | Auto-déclaré |
| IFEval | 82,6 % | 48ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU | 81,5 % | 49ᵉ / 98 | llm-stats | Auto-déclaré |
| OCRBench | 80,8 % | 22ᵉ / 22 | llm-stats | Auto-déclaré |
| MathVista-Mini | 79,5 % | 14ᵉ / 23 | llm-stats | Auto-déclaré |
| Creative Writing v3 | 76,1 % | 12ᵉ / 12 | llm-stats | Auto-déclaré |
| MLVU-M | 75,7 % | 5ᵉ / 8 | llm-stats | Auto-déclaré |
| MuirBench | 75,0 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| AIME 2025 | 74,5 % | 75ᵉ / 108 | llm-stats | Auto-déclaré |
| CC-OCR | 73,8 % | 18ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU-Pro | 73,6 % | 72ᵉ / 125 | llm-stats | Auto-déclaré |
| Multi-IF | 73,6 % | 11ᵉ / 20 | llm-stats | Auto-déclaré |
| MMStar | 73,2 % | 12ᵉ / 22 | llm-stats | Auto-déclaré |
| RealWorldQA | 73,2 % | 18ᵉ / 25 | llm-stats | Auto-déclaré |
| MMMU (val) | 70,8 % | 6ᵉ / 11 | llm-stats | Auto-déclaré |
| VideoMMMU | 69,4 % | 22ᵉ / 26 | llm-stats | Auto-déclaré |
| MVBench | 69,3 % | 14ᵉ / 17 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 68,4 % | 11ᵉ / 14 | llm-stats | Auto-déclaré |
| BFCL-v3 | 67,3 % | 15ᵉ / 19 | llm-stats | Auto-déclaré |
| MMLU-ProX | 65,0 % | 24ᵉ / 32 | llm-stats | Auto-déclaré |
| Include | 64,6 % | 24ᵉ / 31 | llm-stats | Auto-déclaré |
| GPQA | 64,1 % | 135ᵉ / 213 | llm-stats | Auto-déclaré |
| Hallusion Bench | 64,1 % | 9ᵉ / 16 | llm-stats | Auto-déclaré |
| BLINK | 63,4 % | 12ᵉ / 13 | llm-stats | Auto-déclaré |
| OCRBench-V2 (en) | 61,8 % | 10ᵉ / 12 | llm-stats | Auto-déclaré |
| MathVision | 60,0 % | 22ᵉ / 31 | llm-stats | Auto-déclaré |
| CharadesSTA | 59,0 % | 8ᵉ / 12 | llm-stats | Auto-déclaré |
| MMMU-Pro | 57,0 % | 47ᵉ / 60 | llm-stats | Auto-déclaré |
| OCRBench-V2 (zh) | 55,8 % | 11ᵉ / 11 | llm-stats | Auto-déclaré |
| LVBench | 53,5 % | 18ᵉ / 23 | llm-stats | Auto-déclaré |
| HMMT25 | 53,1 % | 22ᵉ / 25 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 51,3 % | 46ᵉ / 53 | llm-stats | Auto-déclaré |
| CharXiv-R | 50,3 % | 38ᵉ / 42 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 49,2 % | 19ᵉ / 23 | llm-stats | Auto-déclaré |
| ERQA | 47,3 % | 16ᵉ / 22 | llm-stats | Auto-déclaré |
| SuperGPQA | 46,8 % | 28ᵉ / 34 | llm-stats | Auto-déclaré |
| PolyMATH | 44,6 % | 17ᵉ / 23 | llm-stats | Auto-déclaré |
| ODinW | 39,4 % | 16ᵉ / 16 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 36,8 % | 16ᵉ / 16 | llm-stats | Auto-déclaré |
| OSWorld | 31,4 % | 15ᵉ / 20 | llm-stats | Auto-déclaré |
| MM-MT-Bench | 7,7 % | 14ᵉ / 17 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| deepinfra | 0,1 $ | 1 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Notre analyse
Forces. Qwen3 VL 4B Thinking réunit trois atouts concrets : des poids ouverts sous Apache 2.0, une fenêtre de contexte de 262 144 tokens et un tarif d’entrée très économique. Ce profil en fait un modèle orienté coût, intégration et volumes importants plutôt qu’un modèle haut de gamme. À sa sortie, son classement GPQA le situait dans la partie médiane favorable des LLM publiés sur la même période, ce qui indique un niveau compétitif pour un modèle de 4 milliards de paramètres.
Limites et points d'attention. Les données disponibles restent limitées à une source concordante, avec un seul repère de classement fourni, GPQA. Aucun autre benchmark n’est documenté ici pour qualifier le code, les agents, les mathématiques ou les tâches spécialisées. Son positionnement tarifaire très bas doit donc être lu comme son principal différenciateur vérifié, davantage que comme une preuve de supériorité générale. Le modèle convient surtout aux usages où le coût, la licence ouverte et le long contexte priment sur la recherche des meilleures performances absolues.
Sources des données : LLM-Stats (llm-stats.com).