Qwen

Qwen3 VL 32B Thinking

Qwen3 VL 32B Thinking est un LLM de Qwen publié le 22 septembre 2025, avec 33 milliards de paramètres. Son positionnement combine un format de grande taille et une licence Apache 2.0, avec poids ouverts et usage commercial autorisé.

À sa sortie, le modèle se situait dans le top 33% des LLM de sa génération sur GPQA, parmi 130 modèles comparés sur la même période. Cette place le présente comme un modèle solide de son époque, sans le classer dans le tout premier groupe.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 septembre 2025
Multimodal	oui
Paramètres	33 milliards

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
DocVQAtest	96,1 %	5ᵉ / 11	llm-stats	Auto-déclaré
ScreenSpot	95,7 %	2ᵉ / 16	llm-stats	Auto-déclaré
MMLU-Redux	91,9 %	20ᵉ / 48	llm-stats	Auto-déclaré
MMBench-V1.1	90,8 %	6ᵉ / 18	llm-stats	Auto-déclaré
CharXiv-D	90,2 %	4ᵉ / 16	llm-stats	Auto-déclaré
InfoVQAtest	89,2 %	3ᵉ / 12	llm-stats	Auto-déclaré
AI2D	88,9 %	15ᵉ / 32	llm-stats	Auto-déclaré
MMLU	88,7 %	16ᵉ / 98	llm-stats	Auto-déclaré
IFEval	87,8 %	28ᵉ / 65	llm-stats	Auto-déclaré
WritingBench	86,2 %	4ᵉ / 15	llm-stats	Auto-déclaré
MathVista-Mini	85,9 %	7ᵉ / 23	llm-stats	Auto-déclaré
OCRBench	85,5 %	15ᵉ / 22	llm-stats	Auto-déclaré
AIME 2025	83,7 %	58ᵉ / 108	llm-stats	Auto-déclaré
Creative Writing v3	83,3 %	9ᵉ / 12	llm-stats	Auto-déclaré
MM-MT-Bench	83,0 %	2ᵉ / 17	llm-stats	Auto-déclaré
MMLU-Pro	82,1 %	37ᵉ / 125	llm-stats	Auto-déclaré
MuirBench	80,3 %	1ᵉ / 11	llm-stats	Auto-déclaré
MMStar	79,4 %	6ᵉ / 22	llm-stats	Auto-déclaré
VideoMMMU	79,0 %	18ᵉ / 26	llm-stats	Auto-déclaré
RealWorldQA	78,4 %	13ᵉ / 25	llm-stats	Auto-déclaré
MMMU (val)	78,1 %	1ᵉ / 11	llm-stats	Auto-déclaré
Multi-IF	78,0 %	4ᵉ / 20	llm-stats	Auto-déclaré
VideoMME w/o sub.	77,3 %	7ᵉ / 10	llm-stats	Auto-déclaré
MMLU-ProX	77,2 %	15ᵉ / 32	llm-stats	Auto-déclaré
Include	76,3 %	15ᵉ / 31	llm-stats	Auto-déclaré
LiveBench 20241125	74,7 %	7ᵉ / 14	llm-stats	Auto-déclaré
MVBench	73,2 %	7ᵉ / 17	llm-stats	Auto-déclaré
GPQA	73,1 %	103ᵉ / 213	llm-stats	Auto-déclaré
BFCL-v3	71,7 %	8ᵉ / 19	llm-stats	Auto-déclaré
MathVision	70,2 %	16ᵉ / 31	llm-stats	Auto-déclaré
BLINK	68,5 %	6ᵉ / 13	llm-stats	Auto-déclaré
OCRBench-V2 (en)	68,4 %	1ᵉ / 12	llm-stats	Auto-déclaré
MMMU-Pro	68,1 %	33ᵉ / 60	llm-stats	Auto-déclaré
Hallusion Bench	67,4 %	5ᵉ / 16	llm-stats	Auto-déclaré
LiveCodeBench v6	65,6 %	35ᵉ / 53	llm-stats	Auto-déclaré
CharXiv-R	65,2 %	28ᵉ / 42	llm-stats	Auto-déclaré
AndroidWorld_SR	63,7 %	4ᵉ / 8	llm-stats	Auto-déclaré
CharadesSTA	62,8 %	4ᵉ / 12	llm-stats	Auto-déclaré
LVBench	62,6 %	12ᵉ / 23	llm-stats	Auto-déclaré
OCRBench-V2 (zh)	62,1 %	2ᵉ / 11	llm-stats	Auto-déclaré
Arena-Hard v2	60,5 %	11ᵉ / 16	llm-stats	Auto-déclaré
SuperGPQA	59,0 %	18ᵉ / 34	llm-stats	Auto-déclaré
ScreenSpot Pro	57,1 %	17ᵉ / 23	llm-stats	Auto-déclaré
SimpleQA	55,4 %	10ᵉ / 45	llm-stats	Auto-déclaré
ERQA	52,3 %	13ᵉ / 22	llm-stats	Auto-déclaré
PolyMATH	52,0 %	11ᵉ / 23	llm-stats	Auto-déclaré
OSWorld	41,0 %	10ᵉ / 20	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. Qwen3 VL 32B Thinking se distingue surtout par son statut open-weights sous licence Apache 2.0, qui autorise les usages commerciaux et donne un cadre d’exploitation plus ouvert que celui des modèles uniquement accessibles par API fermée. Avec 33 milliards de paramètres, il appartient à une catégorie de LLM suffisamment large pour viser des tâches de raisonnement général. Son résultat sur GPQA le plaçait, à sa sortie, dans le haut intermédiaire des LLM de sa génération, un signal positif pour les capacités de raisonnement évaluées par ce benchmark.

Limites et points d'attention. Le classement disponible ne le situe pas parmi les tout meilleurs modèles de sa période, mais dans le top 33%, ce qui indique un niveau compétitif sans domination nette. La fiche repose sur une seule source de données concordante, ce qui réduit la profondeur de validation indépendante. Aucun autre benchmark, coût d’entraînement, tarif ou détail technique n’est fourni dans les données vérifiées, ce qui limite l’analyse comparative. Le modèle reste surtout pertinent pour des usages où des poids ouverts, une licence commerciale permissive et un niveau solide sur GPQA priment sur la recherche de performances de pointe.

Sources des données : LLM-Stats (llm-stats.com).

Qwen3 VL 32B Thinking

Caractéristiques

Performances (benchmarks)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast