Qwen

Qwen2.5 VL 72B Instruct

Qwen2.5 VL 72B Instruct est un modèle de Qwen sorti le 26 janvier 2025, avec 72 milliards de paramètres et une fenêtre de contexte très large de 131 072 tokens. À l’échelle de l’IA, son ancienneté d’environ un an le situe déjà dans une génération passée, à comparer surtout aux modèles…

Son positionnement le plus net combine grand format, coût très bas et licence tongyi-qianwen avec poids non ouverts. Son tarif est très inférieur à celui des LLM similaires et reste environ six fois plus bas que celui des modèles frontière, ce qui en faisait une option économique pour un modèle volumineux.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	tongyi-qianwen (poids non ouverts)
Date de sortie	26 janvier 2025
Connaissances jusqu'à	2024-06-30
Multimodal	oui
Paramètres	72 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	71,0 %	82ᵉ / 252	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	68,0 %	149ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	18,0 %	229ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	5,0 %	201ᵉ / 217	benchable	✅ Mesuré
DocVQA	96,4 %	1ᵉ / 26	llm-stats	Auto-déclaré
Android Control Low_EM	93,7 %	1ᵉ / 3	llm-stats	Auto-déclaré
ChartQA	89,5 %	3ᵉ / 24	llm-stats	Auto-déclaré
OCRBench	88,5 %	10ᵉ / 22	llm-stats	Auto-déclaré
AI2D	88,4 %	16ᵉ / 32	llm-stats	Auto-déclaré
MMBench	88,0 %	2ᵉ / 9	llm-stats	Auto-déclaré
ScreenSpot	87,1 %	13ᵉ / 16	llm-stats	Auto-déclaré
AITZ_EM	83,2 %	1ᵉ / 3	llm-stats	Auto-déclaré
CC-OCR	79,8 %	12ᵉ / 18	llm-stats	Auto-déclaré
EgoSchema	76,2 %	2ᵉ / 9	llm-stats	Auto-déclaré
MathVista-Mini	74,8 %	16ᵉ / 23	llm-stats	Auto-déclaré
MLVU-M	74,6 %	8ᵉ / 8	llm-stats	Auto-déclaré
VideoMME w/o sub.	73,3 %	8ᵉ / 10	llm-stats	Auto-déclaré
MMStar	70,8 %	15ᵉ / 22	llm-stats	Auto-déclaré
MVBench	70,4 %	11ᵉ / 17	llm-stats	Auto-déclaré
MMMU	70,2 %	29ᵉ / 61	llm-stats	Auto-déclaré
Android Control High_EM	67,4 %	2ᵉ / 3	llm-stats	Auto-déclaré
OCRBench-V2 (en)	61,5 %	11ᵉ / 12	llm-stats	Auto-déclaré
Hallusion Bench	55,2 %	15ᵉ / 16	llm-stats	Auto-déclaré
MMMU-Pro	51,1 %	52ᵉ / 60	llm-stats	Auto-déclaré
LVBench	47,3 %	20ᵉ / 23	llm-stats	Auto-déclaré
ScreenSpot Pro	43,6 %	21ᵉ / 23	llm-stats	Auto-déclaré
MathVision	38,1 %	28ᵉ / 31	llm-stats	Auto-déclaré
AndroidWorld_SR	35,0 %	6ᵉ / 8	llm-stats	Auto-déclaré
OSWorld	8,8 %	19ᵉ / 20	llm-stats	Auto-déclaré
MMBench-Video	2,0 %	1ᵉ / 3	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Qwen2.5 VL 72B Instruct100 %

Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Qwen2.5 VL 72B Instruct100 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Vision	1121	95ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Parasail	0,8 $	1 $	0,4 $

Prix en dollars US par million de tokens.

Sa tarification se situe 59 % en dessous de la moyenne des LLM similaires, et 6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	8 min 07 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. À sa sortie, Qwen2.5 VL 72B Instruct figurait dans le haut du panier de sa génération sur plusieurs évaluations Benchable. Ses meilleurs signaux concernent Hallucinations (Baseline), qui évalue la tendance à produire des réponses inventées, et Ethics (Baseline), où il apparaît en top 10. General Knowledge (Baseline) atteint aussi un score maximal, même si son rang montre une concurrence dense sur ce test. Email Classification (Baseline) est un autre point solide, utile pour les tâches de tri et de catégorisation textuelle. Le modèle conserve aussi un avantage économique marqué, avec une tarification 59% inférieure à la moyenne des LLM similaires.

Limites et points d'attention. Qwen2.5 VL 72B Instruct est aujourd’hui un modèle ancien pour le marché de l’IA, probablement dépassé par les générations récentes et souvent retiré des catalogues actifs des éditeurs. Ses résultats sont moins convaincants en Instruction Following (Baseline) et surtout en Reasoning (Baseline), où il se situe nettement plus bas dans le classement. Son score Arena vision le place loin des meilleurs systèmes évalués sur ce terrain. La coupure de connaissances au 2024-06-30 limite aussi sa pertinence sur les faits récents. Enfin, la licence tongyi-qianwen indique des poids non ouverts, ce qui réduit les possibilités d’audit, d’adaptation locale et de déploiement autonome.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Qwen2.5 VL 72B Instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast