Qwen

Qwen3 VL 30B A3B Thinking

Qwen3 VL 30B A3B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 31 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des grands modèles accessibles pour…

Son positionnement le plus distinctif est tarifaire : ses prix le situent très en dessous de la moyenne des LLM similaires, et environ 37,2 fois moins cher que les modèles frontière. À sa sortie, il se plaçait dans le top 29% des LLM de sa génération sur GPQA, avec des données consolidées par 3 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Connaissances jusqu'à	2025-03-31
Multimodal	oui
Paramètres	31 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image,video → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	97,0 %	158ᵉ / 250	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	91,9 %	103ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	90,7 %	108ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	84,0 %	172ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	67,3 %	152ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	25,3 %	214ᵉ / 252	benchable	✅ Mesuré
DocVQAtest	95,0 %	9ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot	94,7 %	5ᵉ / 16	llm-stats	Auto-déclaré
MMLU-Redux	90,9 %	23ᵉ / 48	llm-stats	Auto-déclaré
MMBench-V1.1	88,9 %	9ᵉ / 18	llm-stats	Auto-déclaré
MMLU	87,6 %	20ᵉ / 98	llm-stats	Auto-déclaré
AI2D	86,9 %	18ᵉ / 32	llm-stats	Auto-déclaré
CharXiv-D	86,9 %	9ᵉ / 16	llm-stats	Auto-déclaré
InfoVQAtest	86,0 %	6ᵉ / 12	llm-stats	Auto-déclaré
WritingBench	85,2 %	7ᵉ / 15	llm-stats	Auto-déclaré
OCRBench	83,9 %	17ᵉ / 22	llm-stats	Auto-déclaré
AIME 2025	83,1 %	59ᵉ / 108	llm-stats	Auto-déclaré
Creative Writing v3	82,5 %	10ᵉ / 12	llm-stats	Auto-déclaré
MathVista-Mini	81,9 %	11ᵉ / 23	llm-stats	Auto-déclaré
IFEval	81,7 %	50ᵉ / 65	llm-stats	Auto-déclaré
MMLU-Pro	80,5 %	51ᵉ / 125	llm-stats	Auto-déclaré
MLVU-M	78,9 %	3ᵉ / 8	llm-stats	Auto-déclaré
CC-OCR	77,8 %	13ᵉ / 18	llm-stats	Auto-déclaré
MuirBench	77,6 %	3ᵉ / 11	llm-stats	Auto-déclaré
RealWorldQA	77,4 %	15ᵉ / 25	llm-stats	Auto-déclaré
MMLU-ProX	76,1 %	18ᵉ / 32	llm-stats	Auto-déclaré
MMMU (val)	76,0 %	2ᵉ / 11	llm-stats	Auto-déclaré
MMStar	75,5 %	10ᵉ / 22	llm-stats	Auto-déclaré
VideoMMMU	75,0 %	19ᵉ / 26	llm-stats	Auto-déclaré
Include	74,5 %	17ᵉ / 31	llm-stats	Auto-déclaré
GPQA	74,4 %	96ᵉ / 213	llm-stats	Auto-déclaré
Video-MME	73,3 %	13ᵉ / 17	llm-stats	Auto-déclaré
Multi-IF	73,0 %	12ᵉ / 20	llm-stats	Auto-déclaré
LiveBench 20241125	72,1 %	9ᵉ / 14	llm-stats	Auto-déclaré
MVBench	72,0 %	10ᵉ / 17	llm-stats	Auto-déclaré
BFCL-v3	68,6 %	13ᵉ / 19	llm-stats	Auto-déclaré
HMMT25	67,6 %	17ᵉ / 25	llm-stats	Auto-déclaré
Hallusion Bench	66,0 %	7ᵉ / 16	llm-stats	Auto-déclaré
MathVision	65,7 %	18ᵉ / 31	llm-stats	Auto-déclaré
BLINK	65,4 %	11ᵉ / 13	llm-stats	Auto-déclaré
LiveCodeBench v6	64,2 %	37ᵉ / 53	llm-stats	Auto-déclaré
MMMU-Pro	63,0 %	38ᵉ / 60	llm-stats	Auto-déclaré
CharadesSTA	62,7 %	5ᵉ / 12	llm-stats	Auto-déclaré
OCRBench-V2 (en)	62,6 %	9ᵉ / 12	llm-stats	Auto-déclaré
OCRBench-V2 (zh)	60,4 %	5ᵉ / 11	llm-stats	Auto-déclaré
LVBench	59,2 %	14ᵉ / 23	llm-stats	Auto-déclaré
ScreenSpot Pro	57,3 %	16ᵉ / 23	llm-stats	Auto-déclaré
Arena-Hard v2	56,7 %	13ᵉ / 16	llm-stats	Auto-déclaré
CharXiv-R	56,6 %	34ᵉ / 42	llm-stats	Auto-déclaré
SuperGPQA	56,4 %	23ᵉ / 34	llm-stats	Auto-déclaré
PolyMATH	51,7 %	12ᵉ / 23	llm-stats	Auto-déclaré
ERQA	45,3 %	19ᵉ / 22	llm-stats	Auto-déclaré
ODinW	42,3 %	13ᵉ / 16	llm-stats	Auto-déclaré
OSWorld	30,6 %	16ᵉ / 20	llm-stats	Auto-déclaré
SimpleQA	23,9 %	29ᵉ / 45	llm-stats	Auto-déclaré
MM-MT-Bench	7,9 %	12ᵉ / 17	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Qwen3 VL 30B A3B Thinki…100 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Qwen3 VL 30B A3B Thinki…99 %

WizardLM-2 8x22B95 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,13 $	1,56 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 37,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,06 $
Latence moyenne par benchmark — Benchable	53 min 58 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 30B A3B Thinking se distingue d’abord sur Ethics (Baseline), où il atteint la première place du classement Benchable et figure dans le top 10. Email Classification (Baseline) ressort aussi comme un point fort, avec un niveau très élevé sur une tâche utile aux pipelines de tri, de routage ou de modération de messages. La grande fenêtre de contexte renforce son intérêt pour l’analyse de documents longs, tandis que la licence Apache 2.0 autorise des usages commerciaux sans verrou propriétaire. Son prix très économique, nettement inférieur à celui des LLM comparables et des modèles haut de gamme, en fait un candidat crédible pour des déploiements à fort volume.

Limites et points d'attention. Le modèle n’apparaît pas comme un modèle de tout premier plan sur l’ensemble des évaluations : General Knowledge (Baseline), Mathematics (Baseline) et Coding (Baseline) restent plutôt en milieu de classement malgré de bons scores absolus. Hallucinations (Baseline) constitue le signal le plus faible, avec un rang nettement moins favorable que ses meilleurs résultats. Sa base de connaissances s’arrête au 2025-03-31, ce qui impose une mise à jour externe pour les sujets récents. Le profil le plus pertinent reste donc celui d’un LLM économique pour classification d’e-mails, contrôles éthiques, traitements longs et tâches généralistes, avec vérification humaine ou outillage de validation pour les réponses factuelles.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Qwen3 VL 30B A3B Thinking

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast