Qwen3 VL 4B Thinking

Qwen3 VL 4B Thinking est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Son positionnement combine un format compact de 4 milliards de paramètres, une très grande fenêtre de contexte et un coût d’accès très bas.

Qwen3 VL 4B Thinking est un LLM de Qwen publié le 22 septembre 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Son positionnement combine un format compact de 4 milliards de paramètres, une très grande fenêtre de contexte et un coût d’accès très bas.

Le modèle se distingue surtout par son économie d’usage : sa tarification est annoncée 95% sous la moyenne des LLM similaires et environ 48,3 fois moins chère que celle des modèles frontière. À sa sortie, son résultat GPQA le plaçait dans le top 53% des LLM de sa génération.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie22 septembre 2025
Multimodaloui
Paramètres4 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
DocVQAtest94,2 %11ᵉ / 11llm-statsAuto-déclaré
ScreenSpot92,9 %10ᵉ / 16llm-statsAuto-déclaré
MMBench-V1.186,7 %12ᵉ / 18llm-statsAuto-déclaré
MMLU-Redux86,0 %33ᵉ / 48llm-statsAuto-déclaré
AI2D84,9 %21ᵉ / 32llm-statsAuto-déclaré
WritingBench84,0 %10ᵉ / 15llm-statsAuto-déclaré
CharXiv-D83,9 %13ᵉ / 16llm-statsAuto-déclaré
InfoVQAtest83,0 %10ᵉ / 12llm-statsAuto-déclaré
IFEval82,6 %48ᵉ / 65llm-statsAuto-déclaré
MMLU81,5 %49ᵉ / 98llm-statsAuto-déclaré
OCRBench80,8 %22ᵉ / 22llm-statsAuto-déclaré
MathVista-Mini79,5 %14ᵉ / 23llm-statsAuto-déclaré
Creative Writing v376,1 %12ᵉ / 12llm-statsAuto-déclaré
MLVU-M75,7 %5ᵉ / 8llm-statsAuto-déclaré
MuirBench75,0 %5ᵉ / 11llm-statsAuto-déclaré
AIME 202574,5 %75ᵉ / 108llm-statsAuto-déclaré
CC-OCR73,8 %18ᵉ / 18llm-statsAuto-déclaré
MMLU-Pro73,6 %72ᵉ / 125llm-statsAuto-déclaré
Multi-IF73,6 %11ᵉ / 20llm-statsAuto-déclaré
MMStar73,2 %12ᵉ / 22llm-statsAuto-déclaré
RealWorldQA73,2 %18ᵉ / 25llm-statsAuto-déclaré
MMMU (val)70,8 %6ᵉ / 11llm-statsAuto-déclaré
VideoMMMU69,4 %22ᵉ / 26llm-statsAuto-déclaré
MVBench69,3 %14ᵉ / 17llm-statsAuto-déclaré
LiveBench 2024112568,4 %11ᵉ / 14llm-statsAuto-déclaré
BFCL-v367,3 %15ᵉ / 19llm-statsAuto-déclaré
MMLU-ProX65,0 %24ᵉ / 32llm-statsAuto-déclaré
Include64,6 %24ᵉ / 31llm-statsAuto-déclaré
GPQA64,1 %135ᵉ / 213llm-statsAuto-déclaré
Hallusion Bench64,1 %9ᵉ / 16llm-statsAuto-déclaré
BLINK63,4 %12ᵉ / 13llm-statsAuto-déclaré
OCRBench-V2 (en)61,8 %10ᵉ / 12llm-statsAuto-déclaré
MathVision60,0 %22ᵉ / 31llm-statsAuto-déclaré
CharadesSTA59,0 %8ᵉ / 12llm-statsAuto-déclaré
MMMU-Pro57,0 %47ᵉ / 60llm-statsAuto-déclaré
OCRBench-V2 (zh)55,8 %11ᵉ / 11llm-statsAuto-déclaré
LVBench53,5 %18ᵉ / 23llm-statsAuto-déclaré
HMMT2553,1 %22ᵉ / 25llm-statsAuto-déclaré
LiveCodeBench v651,3 %46ᵉ / 53llm-statsAuto-déclaré
CharXiv-R50,3 %38ᵉ / 42llm-statsAuto-déclaré
ScreenSpot Pro49,2 %19ᵉ / 23llm-statsAuto-déclaré
ERQA47,3 %16ᵉ / 22llm-statsAuto-déclaré
SuperGPQA46,8 %28ᵉ / 34llm-statsAuto-déclaré
PolyMATH44,6 %17ᵉ / 23llm-statsAuto-déclaré
ODinW39,4 %16ᵉ / 16llm-statsAuto-déclaré
Arena-Hard v236,8 %16ᵉ / 16llm-statsAuto-déclaré
OSWorld31,4 %15ᵉ / 20llm-statsAuto-déclaré
MM-MT-Bench7,7 %14ᵉ / 17llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
deepinfra0,1 $1 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Qwen3 VL 4B Thinking réunit trois atouts concrets : des poids ouverts sous Apache 2.0, une fenêtre de contexte de 262 144 tokens et un tarif d’entrée très économique. Ce profil en fait un modèle orienté coût, intégration et volumes importants plutôt qu’un modèle haut de gamme. À sa sortie, son classement GPQA le situait dans la partie médiane favorable des LLM publiés sur la même période, ce qui indique un niveau compétitif pour un modèle de 4 milliards de paramètres.

Limites et points d'attention. Les données disponibles restent limitées à une source concordante, avec un seul repère de classement fourni, GPQA. Aucun autre benchmark n’est documenté ici pour qualifier le code, les agents, les mathématiques ou les tâches spécialisées. Son positionnement tarifaire très bas doit donc être lu comme son principal différenciateur vérifié, davantage que comme une preuve de supériorité générale. Le modèle convient surtout aux usages où le coût, la licence ouverte et le long contexte priment sur la recherche des meilleures performances absolues.


Sources des données : LLM-Stats (llm-stats.com).