Qwen3 VL 30B A3B Thinking

Qwen3 VL 30B A3B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 31 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des grands modèles accessibles pour…

Qwen3 VL 30B A3B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 31 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des grands modèles accessibles pour les traitements de texte longs.

Son positionnement le plus distinctif est tarifaire : ses prix le situent très en dessous de la moyenne des LLM similaires, et environ 37,2 fois moins cher que les modèles frontière. À sa sortie, il se plaçait dans le top 29% des LLM de sa génération sur GPQA, avec des données consolidées par 3 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie22 septembre 2025
Connaissances jusqu'à2025-03-31
Multimodaloui
Paramètres31 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,video → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)97,0 %158ᵉ / 250benchable✅ Mesuré
Benchable : Mathematics (Baseline)91,9 %103ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)90,7 %108ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)84,0 %172ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)67,3 %152ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)25,3 %214ᵉ / 252benchable✅ Mesuré
DocVQAtest95,0 %9ᵉ / 11llm-statsAuto-déclaré
ScreenSpot94,7 %5ᵉ / 16llm-statsAuto-déclaré
MMLU-Redux90,9 %23ᵉ / 48llm-statsAuto-déclaré
MMBench-V1.188,9 %9ᵉ / 18llm-statsAuto-déclaré
MMLU87,6 %20ᵉ / 98llm-statsAuto-déclaré
AI2D86,9 %18ᵉ / 32llm-statsAuto-déclaré
CharXiv-D86,9 %9ᵉ / 16llm-statsAuto-déclaré
InfoVQAtest86,0 %6ᵉ / 12llm-statsAuto-déclaré
WritingBench85,2 %7ᵉ / 15llm-statsAuto-déclaré
OCRBench83,9 %17ᵉ / 22llm-statsAuto-déclaré
AIME 202583,1 %59ᵉ / 108llm-statsAuto-déclaré
Creative Writing v382,5 %10ᵉ / 12llm-statsAuto-déclaré
MathVista-Mini81,9 %11ᵉ / 23llm-statsAuto-déclaré
IFEval81,7 %50ᵉ / 65llm-statsAuto-déclaré
MMLU-Pro80,5 %51ᵉ / 125llm-statsAuto-déclaré
MLVU-M78,9 %3ᵉ / 8llm-statsAuto-déclaré
CC-OCR77,8 %13ᵉ / 18llm-statsAuto-déclaré
MuirBench77,6 %3ᵉ / 11llm-statsAuto-déclaré
RealWorldQA77,4 %15ᵉ / 25llm-statsAuto-déclaré
MMLU-ProX76,1 %18ᵉ / 32llm-statsAuto-déclaré
MMMU (val)76,0 %2ᵉ / 11llm-statsAuto-déclaré
MMStar75,5 %10ᵉ / 22llm-statsAuto-déclaré
VideoMMMU75,0 %19ᵉ / 26llm-statsAuto-déclaré
Include74,5 %17ᵉ / 31llm-statsAuto-déclaré
GPQA74,4 %96ᵉ / 213llm-statsAuto-déclaré
Video-MME73,3 %13ᵉ / 17llm-statsAuto-déclaré
Multi-IF73,0 %12ᵉ / 20llm-statsAuto-déclaré
LiveBench 2024112572,1 %9ᵉ / 14llm-statsAuto-déclaré
MVBench72,0 %10ᵉ / 17llm-statsAuto-déclaré
BFCL-v368,6 %13ᵉ / 19llm-statsAuto-déclaré
HMMT2567,6 %17ᵉ / 25llm-statsAuto-déclaré
Hallusion Bench66,0 %7ᵉ / 16llm-statsAuto-déclaré
MathVision65,7 %18ᵉ / 31llm-statsAuto-déclaré
BLINK65,4 %11ᵉ / 13llm-statsAuto-déclaré
LiveCodeBench v664,2 %37ᵉ / 53llm-statsAuto-déclaré
MMMU-Pro63,0 %38ᵉ / 60llm-statsAuto-déclaré
CharadesSTA62,7 %5ᵉ / 12llm-statsAuto-déclaré
OCRBench-V2 (en)62,6 %9ᵉ / 12llm-statsAuto-déclaré
OCRBench-V2 (zh)60,4 %5ᵉ / 11llm-statsAuto-déclaré
LVBench59,2 %14ᵉ / 23llm-statsAuto-déclaré
ScreenSpot Pro57,3 %16ᵉ / 23llm-statsAuto-déclaré
Arena-Hard v256,7 %13ᵉ / 16llm-statsAuto-déclaré
CharXiv-R56,6 %34ᵉ / 42llm-statsAuto-déclaré
SuperGPQA56,4 %23ᵉ / 34llm-statsAuto-déclaré
PolyMATH51,7 %12ᵉ / 23llm-statsAuto-déclaré
ERQA45,3 %19ᵉ / 22llm-statsAuto-déclaré
ODinW42,3 %13ᵉ / 16llm-statsAuto-déclaré
OSWorld30,6 %16ᵉ / 20llm-statsAuto-déclaré
SimpleQA23,9 %29ᵉ / 45llm-statsAuto-déclaré
MM-MT-Bench7,9 %12ᵉ / 17llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

▶ Qwen3 VL 30B A3B Thinki…100 %

Benchable : Email Classification (Baseline)

▶ Qwen3 VL 30B A3B Thinki…99 %
WizardLM-2 8x22B95 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,13 $1,56 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 37,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,06 $
Latence moyenne par benchmark — Benchable53 min 58 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 30B A3B Thinking se distingue d’abord sur Ethics (Baseline), où il atteint la première place du classement Benchable et figure dans le top 10. Email Classification (Baseline) ressort aussi comme un point fort, avec un niveau très élevé sur une tâche utile aux pipelines de tri, de routage ou de modération de messages. La grande fenêtre de contexte renforce son intérêt pour l’analyse de documents longs, tandis que la licence Apache 2.0 autorise des usages commerciaux sans verrou propriétaire. Son prix très économique, nettement inférieur à celui des LLM comparables et des modèles haut de gamme, en fait un candidat crédible pour des déploiements à fort volume.

Limites et points d'attention. Le modèle n’apparaît pas comme un modèle de tout premier plan sur l’ensemble des évaluations : General Knowledge (Baseline), Mathematics (Baseline) et Coding (Baseline) restent plutôt en milieu de classement malgré de bons scores absolus. Hallucinations (Baseline) constitue le signal le plus faible, avec un rang nettement moins favorable que ses meilleurs résultats. Sa base de connaissances s’arrête au 2025-03-31, ce qui impose une mise à jour externe pour les sujets récents. Le profil le plus pertinent reste donc celui d’un LLM économique pour classification d’e-mails, contrôles éthiques, traitements longs et tâches généralistes, avec vérification humaine ou outillage de validation pour les réponses factuelles.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).