Qwen

Qwen3 VL 4B Thinking

Qwen3 VL 4B Thinking est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Son positionnement combine un format compact de 4 milliards de paramètres, une très grande fenêtre de contexte et un coût d’accès très bas.

Le modèle se distingue surtout par son économie d’usage : sa tarification est annoncée 95% sous la moyenne des LLM similaires et environ 48,3 fois moins chère que celle des modèles frontière. À sa sortie, son résultat GPQA le plaçait dans le top 53% des LLM de sa génération.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Multimodal	oui
Paramètres	4 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
DocVQAtest	94,2 %	11ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot	92,9 %	10ᵉ / 16	llm-stats	Auto-déclaré
MMBench-V1.1	86,7 %	12ᵉ / 18	llm-stats	Auto-déclaré
MMLU-Redux	86,0 %	33ᵉ / 48	llm-stats	Auto-déclaré
AI2D	84,9 %	21ᵉ / 32	llm-stats	Auto-déclaré
WritingBench	84,0 %	10ᵉ / 15	llm-stats	Auto-déclaré
CharXiv-D	83,9 %	13ᵉ / 16	llm-stats	Auto-déclaré
InfoVQAtest	83,0 %	10ᵉ / 12	llm-stats	Auto-déclaré
IFEval	82,6 %	48ᵉ / 65	llm-stats	Auto-déclaré
MMLU	81,5 %	49ᵉ / 98	llm-stats	Auto-déclaré
OCRBench	80,8 %	22ᵉ / 22	llm-stats	Auto-déclaré
MathVista-Mini	79,5 %	14ᵉ / 23	llm-stats	Auto-déclaré
Creative Writing v3	76,1 %	12ᵉ / 12	llm-stats	Auto-déclaré
MLVU-M	75,7 %	5ᵉ / 8	llm-stats	Auto-déclaré
MuirBench	75,0 %	5ᵉ / 11	llm-stats	Auto-déclaré
AIME 2025	74,5 %	75ᵉ / 108	llm-stats	Auto-déclaré
CC-OCR	73,8 %	18ᵉ / 18	llm-stats	Auto-déclaré
MMLU-Pro	73,6 %	72ᵉ / 125	llm-stats	Auto-déclaré
Multi-IF	73,6 %	11ᵉ / 20	llm-stats	Auto-déclaré
MMStar	73,2 %	12ᵉ / 22	llm-stats	Auto-déclaré
RealWorldQA	73,2 %	18ᵉ / 25	llm-stats	Auto-déclaré
MMMU (val)	70,8 %	6ᵉ / 11	llm-stats	Auto-déclaré
VideoMMMU	69,4 %	22ᵉ / 26	llm-stats	Auto-déclaré
MVBench	69,3 %	14ᵉ / 17	llm-stats	Auto-déclaré
LiveBench 20241125	68,4 %	11ᵉ / 14	llm-stats	Auto-déclaré
BFCL-v3	67,3 %	15ᵉ / 19	llm-stats	Auto-déclaré
MMLU-ProX	65,0 %	24ᵉ / 32	llm-stats	Auto-déclaré
Include	64,6 %	24ᵉ / 31	llm-stats	Auto-déclaré
GPQA	64,1 %	135ᵉ / 213	llm-stats	Auto-déclaré
Hallusion Bench	64,1 %	9ᵉ / 16	llm-stats	Auto-déclaré
BLINK	63,4 %	12ᵉ / 13	llm-stats	Auto-déclaré
OCRBench-V2 (en)	61,8 %	10ᵉ / 12	llm-stats	Auto-déclaré
MathVision	60,0 %	22ᵉ / 31	llm-stats	Auto-déclaré
CharadesSTA	59,0 %	8ᵉ / 12	llm-stats	Auto-déclaré
MMMU-Pro	57,0 %	47ᵉ / 60	llm-stats	Auto-déclaré
OCRBench-V2 (zh)	55,8 %	11ᵉ / 11	llm-stats	Auto-déclaré
LVBench	53,5 %	18ᵉ / 23	llm-stats	Auto-déclaré
HMMT25	53,1 %	22ᵉ / 25	llm-stats	Auto-déclaré
LiveCodeBench v6	51,3 %	46ᵉ / 53	llm-stats	Auto-déclaré
CharXiv-R	50,3 %	38ᵉ / 42	llm-stats	Auto-déclaré
ScreenSpot Pro	49,2 %	19ᵉ / 23	llm-stats	Auto-déclaré
ERQA	47,3 %	16ᵉ / 22	llm-stats	Auto-déclaré
SuperGPQA	46,8 %	28ᵉ / 34	llm-stats	Auto-déclaré
PolyMATH	44,6 %	17ᵉ / 23	llm-stats	Auto-déclaré
ODinW	39,4 %	16ᵉ / 16	llm-stats	Auto-déclaré
Arena-Hard v2	36,8 %	16ᵉ / 16	llm-stats	Auto-déclaré
OSWorld	31,4 %	15ᵉ / 20	llm-stats	Auto-déclaré
MM-MT-Bench	7,7 %	14ᵉ / 17	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
deepinfra	0,1 $	1 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Qwen3 VL 4B Thinking réunit trois atouts concrets : des poids ouverts sous Apache 2.0, une fenêtre de contexte de 262 144 tokens et un tarif d’entrée très économique. Ce profil en fait un modèle orienté coût, intégration et volumes importants plutôt qu’un modèle haut de gamme. À sa sortie, son classement GPQA le situait dans la partie médiane favorable des LLM publiés sur la même période, ce qui indique un niveau compétitif pour un modèle de 4 milliards de paramètres.

Limites et points d'attention. Les données disponibles restent limitées à une source concordante, avec un seul repère de classement fourni, GPQA. Aucun autre benchmark n’est documenté ici pour qualifier le code, les agents, les mathématiques ou les tâches spécialisées. Son positionnement tarifaire très bas doit donc être lu comme son principal différenciateur vérifié, davantage que comme une preuve de supériorité générale. Le modèle convient surtout aux usages où le coût, la licence ouverte et le long contexte priment sur la recherche des meilleures performances absolues.

Sources des données : LLM-Stats (llm-stats.com).

Qwen3 VL 4B Thinking

Caractéristiques

Performances (benchmarks)

Tarifs

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast