Qwen3 VL 235B A22B Instruct
Qwen3 VL 235B A22B Instruct est un LLM de Qwen publié le 22 septembre 2025 sous licence Apache 2.0, avec des poids ouverts et un usage commercial autorisé. Le modèle combine une très grande taille déclarée, 236 milliards de paramètres, avec 22 milliards de paramètres actifs, et une…
Qwen3 VL 235B A22B Instruct est un LLM de Qwen publié le 22 septembre 2025 sous licence Apache 2.0, avec des poids ouverts et un usage commercial autorisé. Le modèle combine une très grande taille déclarée, 236 milliards de paramètres, avec 22 milliards de paramètres actifs, et une fenêtre de contexte étendue à 262 144 tokens.
Son positionnement repose surtout sur le rapport coût-capacités : le tarif est indiqué comme très économique, nettement inférieur à celui des LLM similaires et des modèles frontière. À sa sortie, il figurait dans le top 18% de sa génération sur MMLU-Pro, avec une couverture établie par 5 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 22 septembre 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | oui |
| Paramètres | 236 milliards |
| Paramètres actifs | 22 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 14.3 | 114ᵉ / 136 |
| Math Index | 70.7 | 21ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 158ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,3 % | 91ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 80,0 % | 174ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 65,7 % | 114ᵉ / 252 | benchable | ✅ Mesuré |
| DocVQAtest | 97,1 % | 1ᵉ / 11 | llm-stats | Auto-déclaré |
| ScreenSpot | 95,4 % | 3ᵉ / 16 | llm-stats | Auto-déclaré |
| MMLU-Redux | 92,2 % | 19ᵉ / 48 | llm-stats | Auto-déclaré |
| OCRBench | 92,0 % | 3ᵉ / 22 | llm-stats | Auto-déclaré |
| MMBench-V1.1 | 89,9 % | 8ᵉ / 18 | llm-stats | Auto-déclaré |
| AI2D | 89,7 % | 12ᵉ / 32 | llm-stats | Auto-déclaré |
| InfoVQAtest | 89,2 % | 3ᵉ / 12 | llm-stats | Auto-déclaré |
| MMLU | 88,8 % | 15ᵉ / 98 | llm-stats | Auto-déclaré |
| IFEval | 87,8 % | 28ᵉ / 65 | llm-stats | Auto-déclaré |
| Creative Writing v3 | 86,5 % | 2ᵉ / 12 | llm-stats | Auto-déclaré |
| MultiPL-E | 86,1 % | 3ᵉ / 13 | llm-stats | Auto-déclaré |
| WritingBench | 85,5 % | 5ᵉ / 15 | llm-stats | Auto-déclaré |
| MathVista-Mini | 84,9 % | 9ᵉ / 23 | llm-stats | Auto-déclaré |
| MLVU | 84,3 % | 8ᵉ / 10 | llm-stats | Auto-déclaré |
| CSimpleQA | 83,4 % | 3ᵉ / 7 | llm-stats | Auto-déclaré |
| CC-OCR | 82,2 % | 2ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU-Pro | 81,8 % | 39ᵉ / 125 | llm-stats | Auto-déclaré |
| Include | 80,0 % | 9ᵉ / 31 | llm-stats | Auto-déclaré |
| RealWorldQA | 79,3 % | 11ᵉ / 25 | llm-stats | Auto-déclaré |
| VideoMME w/o sub. | 79,2 % | 5ᵉ / 10 | llm-stats | Auto-déclaré |
| MMMUval | 78,7 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| MMStar | 78,4 % | 8ᵉ / 22 | llm-stats | Auto-déclaré |
| MMLU-ProX | 77,8 % | 14ᵉ / 32 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 77,4 % | 5ᵉ / 16 | llm-stats | Auto-déclaré |
| Multi-IF | 76,3 % | 7ᵉ / 20 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 74,8 % | 6ᵉ / 14 | llm-stats | Auto-déclaré |
| AIME 2025 | 74,7 % | 73ᵉ / 108 | llm-stats | Auto-déclaré |
| VideoMMMU | 74,7 % | 20ᵉ / 26 | llm-stats | Auto-déclaré |
| MuirBench | 72,8 % | 6ᵉ / 11 | llm-stats | Auto-déclaré |
| BLINK | 70,7 % | 3ᵉ / 13 | llm-stats | Auto-déclaré |
| MMMU-Pro | 68,1 % | 33ᵉ / 60 | llm-stats | Auto-déclaré |
| BFCL-v3 | 67,7 % | 14ᵉ / 19 | llm-stats | Auto-déclaré |
| LVBench | 67,7 % | 9ᵉ / 23 | llm-stats | Auto-déclaré |
| OCRBench-V2 (en) | 67,1 % | 3ᵉ / 12 | llm-stats | Auto-déclaré |
| OSWorld | 66,7 % | 5ᵉ / 20 | llm-stats | Auto-déclaré |
| MathVision | 66,5 % | 17ᵉ / 31 | llm-stats | Auto-déclaré |
| CharadesSTA | 64,8 % | 1ᵉ / 12 | llm-stats | Auto-déclaré |
| AndroidWorld_SR | 63,7 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| Hallusion Bench | 63,2 % | 11ᵉ / 16 | llm-stats | Auto-déclaré |
| CharXiv-R | 62,1 % | 30ᵉ / 42 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 62,0 % | 11ᵉ / 23 | llm-stats | Auto-déclaré |
| OCRBench-V2 (zh) | 61,8 % | 3ᵉ / 11 | llm-stats | Auto-déclaré |
| LiveCodeBench v5 | 61,4 % | 3ᵉ / 9 | llm-stats | Auto-déclaré |
| SuperGPQA | 60,4 % | 17ᵉ / 34 | llm-stats | Auto-déclaré |
| HMMT25 | 57,4 % | 19ᵉ / 25 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 54,3 % | 41ᵉ / 53 | llm-stats | Auto-déclaré |
| SimpleQA | 51,9 % | 13ᵉ / 45 | llm-stats | Auto-déclaré |
| ERQA | 51,3 % | 14ᵉ / 22 | llm-stats | Auto-déclaré |
| ODinW | 48,6 % | 4ᵉ / 16 | llm-stats | Auto-déclaré |
| MM-MT-Bench | 8,5 % | 5ᵉ / 17 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1415 | 102ᵉ |
| Arena Vision | 1215 | 50ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,2 $ | 0,88 $ | 0,11 $ |
| artificialanalysis | 0,3 $ | 1,9 $ | 0,3 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 5 min 24 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3 VL 235B A22B Instruct se distingue par des résultats très élevés sur plusieurs benchmarks Benchable de base : Hallucinations, General Knowledge, Reasoning et Ethics apparaissent tous dans le top 10. Le Math Index le place aussi dans une zone solide, même si le benchmark Benchable Mathematics est moins dominant. À sa sortie, son classement MMLU-Pro le situait dans le haut du panier des LLM de sa période. La licence Apache 2.0 renforce son intérêt pratique, car elle autorise les usages commerciaux avec des poids ouverts. Le coût constitue un autre point fort majeur : la tarification est annoncée 90% sous la moyenne des LLM similaires et environ 24,2 fois inférieure à celle des modèles frontière.
Limites et points d'attention. L’Intelligence Index reste faible dans le classement fourni, ce qui nuance les très bons scores Benchable et signale une performance générale moins compétitive selon cet indice. L’Arena text le place loin des premiers rangs, tandis que l’Arena vision indique une position plus intermédiaire que dominante. Email Classification apparaît aussi comme un point faible relatif. Les connaissances s’arrêtent au 2025-03-31, ce qui limite les usages dépendants d’informations récentes. Ce modèle convient surtout aux déploiements recherchant des poids ouverts, un long contexte et un coût très bas, avec une vigilance particulière sur les tâches où les classements Arena et Intelligence Index sont déterminants.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).