Qwen3 VL 30B A3B Thinking
Qwen3 VL 30B A3B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 31 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des grands modèles accessibles pour…
Qwen3 VL 30B A3B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Avec 31 milliards de paramètres et une fenêtre de contexte de 262 144 tokens, il se place dans la catégorie des grands modèles accessibles pour les traitements de texte longs.
Son positionnement le plus distinctif est tarifaire : ses prix le situent très en dessous de la moyenne des LLM similaires, et environ 37,2 fois moins cher que les modèles frontière. À sa sortie, il se plaçait dans le top 29% des LLM de sa génération sur GPQA, avec des données consolidées par 3 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 22 septembre 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | oui |
| Paramètres | 31 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 97,0 % | 158ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 91,9 % | 103ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 90,7 % | 108ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 84,0 % | 172ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 67,3 % | 152ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 25,3 % | 214ᵉ / 252 | benchable | ✅ Mesuré |
| DocVQAtest | 95,0 % | 9ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot | 94,7 % | 5ᵉ / 16 | llm-stats | Auto-déclaré |
| MMLU-Redux | 90,9 % | 23ᵉ / 48 | llm-stats | Auto-déclaré |
| MMBench-V1.1 | 88,9 % | 9ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU | 87,6 % | 20ᵉ / 98 | llm-stats | Auto-déclaré |
| AI2D | 86,9 % | 18ᵉ / 32 | llm-stats | Auto-déclaré |
| CharXiv-D | 86,9 % | 9ᵉ / 16 | llm-stats | Auto-déclaré |
| InfoVQAtest | 86,0 % | 6ᵉ / 12 | llm-stats | Auto-déclaré |
| WritingBench | 85,2 % | 7ᵉ / 15 | llm-stats | Auto-déclaré |
| OCRBench | 83,9 % | 17ᵉ / 22 | llm-stats | Auto-déclaré |
| AIME 2025 | 83,1 % | 59ᵉ / 108 | llm-stats | Auto-déclaré |
| Creative Writing v3 | 82,5 % | 10ᵉ / 12 | llm-stats | Auto-déclaré |
| MathVista-Mini | 81,9 % | 11ᵉ / 23 | llm-stats | Auto-déclaré |
| IFEval | 81,7 % | 50ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU-Pro | 80,5 % | 51ᵉ / 125 | llm-stats | Auto-déclaré |
| MLVU-M | 78,9 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| CC-OCR | 77,8 % | 13ᵉ / 18 | llm-stats | Auto-déclaré |
| MuirBench | 77,6 % | 3ᵉ / 11 | llm-stats | Auto-déclaré |
| RealWorldQA | 77,4 % | 15ᵉ / 25 | llm-stats | Auto-déclaré |
| MMLU-ProX | 76,1 % | 18ᵉ / 32 | llm-stats | Auto-déclaré |
| MMMU (val) | 76,0 % | 2ᵉ / 11 | llm-stats | Auto-déclaré |
| MMStar | 75,5 % | 10ᵉ / 22 | llm-stats | Auto-déclaré |
| VideoMMMU | 75,0 % | 19ᵉ / 26 | llm-stats | Auto-déclaré |
| Include | 74,5 % | 17ᵉ / 31 | llm-stats | Auto-déclaré |
| GPQA | 74,4 % | 96ᵉ / 213 | llm-stats | Auto-déclaré |
| Video-MME | 73,3 % | 13ᵉ / 17 | llm-stats | Auto-déclaré |
| Multi-IF | 73,0 % | 12ᵉ / 20 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 72,1 % | 9ᵉ / 14 | llm-stats | Auto-déclaré |
| MVBench | 72,0 % | 10ᵉ / 17 | llm-stats | Auto-déclaré |
| BFCL-v3 | 68,6 % | 13ᵉ / 19 | llm-stats | Auto-déclaré |
| HMMT25 | 67,6 % | 17ᵉ / 25 | llm-stats | Auto-déclaré |
| Hallusion Bench | 66,0 % | 7ᵉ / 16 | llm-stats | Auto-déclaré |
| MathVision | 65,7 % | 18ᵉ / 31 | llm-stats | Auto-déclaré |
| BLINK | 65,4 % | 11ᵉ / 13 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 64,2 % | 37ᵉ / 53 | llm-stats | Auto-déclaré |
| MMMU-Pro | 63,0 % | 38ᵉ / 60 | llm-stats | Auto-déclaré |
| CharadesSTA | 62,7 % | 5ᵉ / 12 | llm-stats | Auto-déclaré |
| OCRBench-V2 (en) | 62,6 % | 9ᵉ / 12 | llm-stats | Auto-déclaré |
| OCRBench-V2 (zh) | 60,4 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| LVBench | 59,2 % | 14ᵉ / 23 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 57,3 % | 16ᵉ / 23 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 56,7 % | 13ᵉ / 16 | llm-stats | Auto-déclaré |
| CharXiv-R | 56,6 % | 34ᵉ / 42 | llm-stats | Auto-déclaré |
| SuperGPQA | 56,4 % | 23ᵉ / 34 | llm-stats | Auto-déclaré |
| PolyMATH | 51,7 % | 12ᵉ / 23 | llm-stats | Auto-déclaré |
| ERQA | 45,3 % | 19ᵉ / 22 | llm-stats | Auto-déclaré |
| ODinW | 42,3 % | 13ᵉ / 16 | llm-stats | Auto-déclaré |
| OSWorld | 30,6 % | 16ᵉ / 20 | llm-stats | Auto-déclaré |
| SimpleQA | 23,9 % | 29ᵉ / 45 | llm-stats | Auto-déclaré |
| MM-MT-Bench | 7,9 % | 12ᵉ / 17 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : Email Classification (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,13 $ | 1,56 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 93 % en dessous de la moyenne des LLM similaires, et 37,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,06 $ |
| Latence moyenne par benchmark — Benchable | 53 min 58 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3 VL 30B A3B Thinking se distingue d’abord sur Ethics (Baseline), où il atteint la première place du classement Benchable et figure dans le top 10. Email Classification (Baseline) ressort aussi comme un point fort, avec un niveau très élevé sur une tâche utile aux pipelines de tri, de routage ou de modération de messages. La grande fenêtre de contexte renforce son intérêt pour l’analyse de documents longs, tandis que la licence Apache 2.0 autorise des usages commerciaux sans verrou propriétaire. Son prix très économique, nettement inférieur à celui des LLM comparables et des modèles haut de gamme, en fait un candidat crédible pour des déploiements à fort volume.
Limites et points d'attention. Le modèle n’apparaît pas comme un modèle de tout premier plan sur l’ensemble des évaluations : General Knowledge (Baseline), Mathematics (Baseline) et Coding (Baseline) restent plutôt en milieu de classement malgré de bons scores absolus. Hallucinations (Baseline) constitue le signal le plus faible, avec un rang nettement moins favorable que ses meilleurs résultats. Sa base de connaissances s’arrête au 2025-03-31, ce qui impose une mise à jour externe pour les sujets récents. Le profil le plus pertinent reste donc celui d’un LLM économique pour classification d’e-mails, contrôles éthiques, traitements longs et tâches généralistes, avec vérification humaine ou outillage de validation pour les réponses factuelles.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).