Qwen3 VL 235B A22B Thinking
Qwen3 VL 235B A22B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Il se distingue par une très grande taille, 236 milliards de paramètres, et une fenêtre de contexte de 262 144 tokens.
Qwen3 VL 235B A22B Thinking est un LLM open-weights de Qwen, publié le 22 septembre 2025 sous licence Apache 2.0, avec usage commercial autorisé. Il se distingue par une très grande taille, 236 milliards de paramètres, et une fenêtre de contexte de 262 144 tokens.
Son positionnement est fortement économique : son prix est indiqué 87% sous la moyenne des LLM similaires et environ 18,6 fois inférieur à celui des modèles frontière. À sa sortie, il se situait dans le top 6% des LLM de sa génération sur MMLU-Pro, selon le périmètre fourni.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 22 septembre 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | oui |
| Paramètres | 236 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 97,8 % | 159ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 95,2 % | 124ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 81,6 % | 45ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 3,4 % | 230ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 3,1 % | 203ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 0,0 % | 237ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 0,0 % | 238ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 0,0 % | 236ᵉ / 248 | benchable | ✅ Mesuré |
| ZebraLogic | 97,3 % | 1ᵉ / 7 | llm-stats | Auto-déclaré |
| DocVQAtest | 96,5 % | 3ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot | 95,4 % | 3ᵉ / 16 | llm-stats | Auto-déclaré |
| CountBench | 93,7 % | 6ᵉ / 6 | llm-stats | Auto-déclaré |
| MMLU-Redux | 93,7 % | 8ᵉ / 48 | llm-stats | Auto-déclaré |
| RefCOCO-avg | 92,4 % | 3ᵉ / 7 | llm-stats | Auto-déclaré |
| MMBench-V1.1 | 90,6 % | 7ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU | 90,6 % | 5ᵉ / 98 | llm-stats | Auto-déclaré |
| AIME 2025 | 89,7 % | 45ᵉ / 108 | llm-stats | Auto-déclaré |
| InfoVQAtest | 89,5 % | 2ᵉ / 12 | llm-stats | Auto-déclaré |
| AI2D | 89,2 % | 14ᵉ / 32 | llm-stats | Auto-déclaré |
| IFEval | 88,2 % | 26ᵉ / 65 | llm-stats | Auto-déclaré |
| OCRBench | 87,5 % | 13ᵉ / 22 | llm-stats | Auto-déclaré |
| WritingBench | 86,7 % | 3ᵉ / 15 | llm-stats | Auto-déclaré |
| MathVista-Mini | 85,8 % | 8ᵉ / 23 | llm-stats | Auto-déclaré |
| Creative Writing v3 | 85,7 % | 4ᵉ / 12 | llm-stats | Auto-déclaré |
| EmbSpatialBench | 84,3 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| MLVU | 83,8 % | 9ᵉ / 10 | llm-stats | Auto-déclaré |
| MMLU-Pro | 83,8 % | 26ᵉ / 125 | llm-stats | Auto-déclaré |
| CC-OCR | 81,5 % | 5ᵉ / 18 | llm-stats | Auto-déclaré |
| RealWorldQA | 81,3 % | 10ᵉ / 25 | llm-stats | Auto-déclaré |
| MMLU-ProX | 80,6 % | 10ᵉ / 32 | llm-stats | Auto-déclaré |
| MMMUval | 80,6 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| MuirBench | 80,1 % | 2ᵉ / 11 | llm-stats | Auto-déclaré |
| Include | 80,0 % | 9ᵉ / 31 | llm-stats | Auto-déclaré |
| VideoMMMU | 80,0 % | 17ᵉ / 26 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 79,6 % | 1ᵉ / 14 | llm-stats | Auto-déclaré |
| Multi-IF | 79,1 % | 3ᵉ / 20 | llm-stats | Auto-déclaré |
| VideoMME w/o sub. | 79,0 % | 6ᵉ / 10 | llm-stats | Auto-déclaré |
| MMStar | 78,7 % | 7ᵉ / 22 | llm-stats | Auto-déclaré |
| HMMT25 | 77,4 % | 13ᵉ / 25 | llm-stats | Auto-déclaré |
| MathVision | 74,6 % | 13ᵉ / 31 | llm-stats | Auto-déclaré |
| BFCL-v3 | 71,9 % | 6ᵉ / 19 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 70,1 % | 29ᵉ / 53 | llm-stats | Auto-déclaré |
| RefSpatialBench | 69,9 % | 2ᵉ / 6 | llm-stats | Auto-déclaré |
| MMMU-Pro | 69,3 % | 31ᵉ / 60 | llm-stats | Auto-déclaré |
| BLINK | 67,1 % | 9ᵉ / 13 | llm-stats | Auto-déclaré |
| OCRBench-V2 (en) | 66,8 % | 4ᵉ / 12 | llm-stats | Auto-déclaré |
| Hallusion Bench | 66,7 % | 6ᵉ / 16 | llm-stats | Auto-déclaré |
| CharXiv-R | 66,1 % | 27ᵉ / 42 | llm-stats | Auto-déclaré |
| SuperGPQA | 64,3 % | 13ᵉ / 34 | llm-stats | Auto-déclaré |
| LVBench | 63,6 % | 11ᵉ / 23 | llm-stats | Auto-déclaré |
| CharadesSTA | 63,5 % | 2ᵉ / 12 | llm-stats | Auto-déclaré |
| OCRBench-V2 (zh) | 63,5 % | 1ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 61,8 % | 12ᵉ / 23 | llm-stats | Auto-déclaré |
| SimpleVQA | 61,3 % | 9ᵉ / 13 | llm-stats | Auto-déclaré |
| MMLongBench-Doc | 56,2 % | 5ᵉ / 5 | llm-stats | Auto-déclaré |
| ERQA | 52,5 % | 12ᵉ / 22 | llm-stats | Auto-déclaré |
| SimpleQA | 44,4 % | 18ᵉ / 45 | llm-stats | Auto-déclaré |
| ODinW | 43,2 % | 10ᵉ / 16 | llm-stats | Auto-déclaré |
| OSWorld | 38,1 % | 11ᵉ / 20 | llm-stats | Auto-déclaré |
| SUNRGBD | 34,9 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| VisuLogic | 34,4 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| ZEROBench-Sub | 27,7 % | 5ᵉ / 5 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 13,6 % | 70ᵉ / 86 | llm-stats | Auto-déclaré |
| Hypersim | 11,0 % | 4ᵉ / 4 | llm-stats | Auto-déclaré |
| MM-MT-Bench | 8,5 % | 5ᵉ / 17 | llm-stats | Auto-déclaré |
| ZEROBench | 4,0 % | 8ᵉ / 8 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Hallucinations (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1396 | 125ᵉ |
| Arena Vision | 1190 | 63ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,26 $ | 2,6 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 18,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,53 $ |
| Latence moyenne par benchmark — Benchable | 39 min 18 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3 VL 235B A22B Thinking présente ses meilleurs résultats Benchable sur Email Classification, Hallucinations et Instruction Following, ce qui indique un profil plus solide pour les tâches de tri, de réponses contrôlées et de respect de consignes que pour les tâches de résolution complexe. À sa sortie, son classement MMLU-Pro le plaçait dans le haut du panier de sa génération. La très grande fenêtre de contexte constitue aussi un atout concret pour traiter de longs documents ou de vastes historiques d’échange. Son prix très bas face aux modèles similaires et aux modèles haut de gamme renforce son intérêt économique, surtout avec une licence Apache 2.0 adaptée aux usages commerciaux.
Limites et points d'attention. Les résultats Benchable sont très faibles en Reasoning, Mathematics et Coding, avec un décrochage net sur les tâches de raisonnement formel, de calcul et de programmation. Les classements Arena text et Arena vision ne le placent pas parmi les tout premiers modèles évalués, malgré un profil global compétitif à sa sortie sur MMLU-Pro. Le modèle doit donc être envisagé surtout pour des usages à forte contrainte de coût, de long contexte et de licence ouverte, plutôt que pour du code, des mathématiques ou des raisonnements complexes.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).