Qwen3 VL 235B A22B Instruct

Qwen3 VL 235B A22B Instruct est un LLM de Qwen publié le 22 septembre 2025 sous licence Apache 2.0, avec des poids ouverts et un usage commercial autorisé. Le modèle combine une très grande taille déclarée, 236 milliards de paramètres, avec 22 milliards de paramètres actifs, et une…

Qwen3 VL 235B A22B Instruct est un LLM de Qwen publié le 22 septembre 2025 sous licence Apache 2.0, avec des poids ouverts et un usage commercial autorisé. Le modèle combine une très grande taille déclarée, 236 milliards de paramètres, avec 22 milliards de paramètres actifs, et une fenêtre de contexte étendue à 262 144 tokens.

Son positionnement repose surtout sur le rapport coût-capacités : le tarif est indiqué comme très économique, nettement inférieur à celui des LLM similaires et des modèles frontière. À sa sortie, il figurait dans le top 18% de sa génération sur MMLU-Pro, avec une couverture établie par 5 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie22 septembre 2025
Connaissances jusqu'à2025-03-31
Multimodaloui
Paramètres236 milliards
Paramètres actifs22 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index14.3114ᵉ / 136
Math Index70.721ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %158ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)92,3 %91ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)80,0 %174ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)65,7 %114ᵉ / 252benchable✅ Mesuré
DocVQAtest97,1 %1ᵉ / 11llm-statsAuto-déclaré
ScreenSpot95,4 %3ᵉ / 16llm-statsAuto-déclaré
MMLU-Redux92,2 %19ᵉ / 48llm-statsAuto-déclaré
OCRBench92,0 %3ᵉ / 22llm-statsAuto-déclaré
MMBench-V1.189,9 %8ᵉ / 18llm-statsAuto-déclaré
AI2D89,7 %12ᵉ / 32llm-statsAuto-déclaré
InfoVQAtest89,2 %3ᵉ / 12llm-statsAuto-déclaré
MMLU88,8 %15ᵉ / 98llm-statsAuto-déclaré
IFEval87,8 %28ᵉ / 65llm-statsAuto-déclaré
Creative Writing v386,5 %2ᵉ / 12llm-statsAuto-déclaré
MultiPL-E86,1 %3ᵉ / 13llm-statsAuto-déclaré
WritingBench85,5 %5ᵉ / 15llm-statsAuto-déclaré
MathVista-Mini84,9 %9ᵉ / 23llm-statsAuto-déclaré
MLVU84,3 %8ᵉ / 10llm-statsAuto-déclaré
CSimpleQA83,4 %3ᵉ / 7llm-statsAuto-déclaré
CC-OCR82,2 %2ᵉ / 18llm-statsAuto-déclaré
MMLU-Pro81,8 %39ᵉ / 125llm-statsAuto-déclaré
Include80,0 %9ᵉ / 31llm-statsAuto-déclaré
RealWorldQA79,3 %11ᵉ / 25llm-statsAuto-déclaré
VideoMME w/o sub.79,2 %5ᵉ / 10llm-statsAuto-déclaré
MMMUval78,7 %2ᵉ / 4llm-statsAuto-déclaré
MMStar78,4 %8ᵉ / 22llm-statsAuto-déclaré
MMLU-ProX77,8 %14ᵉ / 32llm-statsAuto-déclaré
Arena-Hard v277,4 %5ᵉ / 16llm-statsAuto-déclaré
Multi-IF76,3 %7ᵉ / 20llm-statsAuto-déclaré
LiveBench 2024112574,8 %6ᵉ / 14llm-statsAuto-déclaré
AIME 202574,7 %73ᵉ / 108llm-statsAuto-déclaré
VideoMMMU74,7 %20ᵉ / 26llm-statsAuto-déclaré
MuirBench72,8 %6ᵉ / 11llm-statsAuto-déclaré
BLINK70,7 %3ᵉ / 13llm-statsAuto-déclaré
MMMU-Pro68,1 %33ᵉ / 60llm-statsAuto-déclaré
BFCL-v367,7 %14ᵉ / 19llm-statsAuto-déclaré
LVBench67,7 %9ᵉ / 23llm-statsAuto-déclaré
OCRBench-V2 (en)67,1 %3ᵉ / 12llm-statsAuto-déclaré
OSWorld66,7 %5ᵉ / 20llm-statsAuto-déclaré
MathVision66,5 %17ᵉ / 31llm-statsAuto-déclaré
CharadesSTA64,8 %1ᵉ / 12llm-statsAuto-déclaré
AndroidWorld_SR63,7 %4ᵉ / 8llm-statsAuto-déclaré
Hallusion Bench63,2 %11ᵉ / 16llm-statsAuto-déclaré
CharXiv-R62,1 %30ᵉ / 42llm-statsAuto-déclaré
ScreenSpot Pro62,0 %11ᵉ / 23llm-statsAuto-déclaré
OCRBench-V2 (zh)61,8 %3ᵉ / 11llm-statsAuto-déclaré
LiveCodeBench v561,4 %3ᵉ / 9llm-statsAuto-déclaré
SuperGPQA60,4 %17ᵉ / 34llm-statsAuto-déclaré
HMMT2557,4 %19ᵉ / 25llm-statsAuto-déclaré
LiveCodeBench v654,3 %41ᵉ / 53llm-statsAuto-déclaré
SimpleQA51,9 %13ᵉ / 45llm-statsAuto-déclaré
ERQA51,3 %14ᵉ / 22llm-statsAuto-déclaré
ODinW48,6 %4ᵉ / 16llm-statsAuto-déclaré
MM-MT-Bench8,5 %5ᵉ / 17llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nova 2.0 Pro Preview21.8
▶ Qwen3 VL 235B A22B Inst…14.3

Math Index

gemini-3-flash97.0
DeepSeek V3.292.0
▶ Qwen3 VL 235B A22B Inst…70.7

Classements Arena (Elo)

CatégorieEloRang
Arena Text1415102ᵉ
Arena Vision121550ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,2 $0,88 $0,11 $
artificialanalysis0,3 $1,9 $0,3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable5 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3 VL 235B A22B Instruct se distingue par des résultats très élevés sur plusieurs benchmarks Benchable de base : Hallucinations, General Knowledge, Reasoning et Ethics apparaissent tous dans le top 10. Le Math Index le place aussi dans une zone solide, même si le benchmark Benchable Mathematics est moins dominant. À sa sortie, son classement MMLU-Pro le situait dans le haut du panier des LLM de sa période. La licence Apache 2.0 renforce son intérêt pratique, car elle autorise les usages commerciaux avec des poids ouverts. Le coût constitue un autre point fort majeur : la tarification est annoncée 90% sous la moyenne des LLM similaires et environ 24,2 fois inférieure à celle des modèles frontière.

Limites et points d'attention. L’Intelligence Index reste faible dans le classement fourni, ce qui nuance les très bons scores Benchable et signale une performance générale moins compétitive selon cet indice. L’Arena text le place loin des premiers rangs, tandis que l’Arena vision indique une position plus intermédiaire que dominante. Email Classification apparaît aussi comme un point faible relatif. Les connaissances s’arrêtent au 2025-03-31, ce qui limite les usages dépendants d’informations récentes. Ce modèle convient surtout aux déploiements recherchant des poids ouverts, un long contexte et un coût très bas, avec une vigilance particulière sur les tâches où les classements Arena et Intelligence Index sont déterminants.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).