Qwen

Qwen2.5-Coder 32B Instruct

Qwen2.5-Coder 32B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous licence Apache 2.0 avec usage commercial autorisé. Son positionnement associe un format 32 milliards de paramètres, une fenêtre de contexte de 128 000 tokens et une spécialisation affichée sur le…

Avec environ deux ans d’ancienneté, le modèle appartient déjà à une génération très éloignée du rythme actuel de l’IA. Il se juge surtout par rapport aux modèles de sa période, où il affichait un coût très bas et des résultats particulièrement solides sur la réduction des hallucinations.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	19 septembre 2024
Connaissances jusqu'à	2024-06-30
Multimodal	non
Paramètres	32 milliards
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	96,2 %	174ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	96,0 %	197ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	77,0 %	189ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	76,0 %	131ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	54,5 %	160ᵉ / 252	benchable	✅ Mesuré
HumanEval	92,7 %	6ᵉ / 65	llm-stats	Auto-déclaré
GSM8k	91,1 %	23ᵉ / 47	llm-stats	Auto-déclaré
MBPP	90,2 %	3ᵉ / 33	llm-stats	Auto-déclaré
HellaSwag	83,0 %	16ᵉ / 27	llm-stats	Auto-déclaré
Winogrande	80,8 %	10ᵉ / 22	llm-stats	Auto-déclaré
MMLU-Redux	77,5 %	42ᵉ / 48	llm-stats	Auto-déclaré
MMLU	75,1 %	75ᵉ / 98	llm-stats	Auto-déclaré
ARC-C	70,5 %	21ᵉ / 34	llm-stats	Auto-déclaré
MATH	57,2 %	50ᵉ / 70	llm-stats	Auto-déclaré
TruthfulQA	54,2 %	14ᵉ / 18	llm-stats	Auto-déclaré
MMLU-Pro	50,4 %	111ᵉ / 125	llm-stats	Auto-déclaré
TheoremQA	43,1 %	3ᵉ / 6	llm-stats	Auto-déclaré
LiveCodeBench	31,4 %	59ᵉ / 72	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Qwen2.5-Coder 32B Instr…100 %

Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Qwen2.5-Coder 32B Instr…99 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Cloudflare	0,66 $	1 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 66 % en dessous de la moyenne des LLM similaires, et 7,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	2 min 39 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen2.5-Coder 32B Instruct se distingue d’abord sur Hallucinations (Baseline), où il apparaît tout en haut du classement Benchable, un signal fort pour les tâches où la fiabilité factuelle compte. Ses résultats restent également élevés sur Ethics (Baseline), General Knowledge (Baseline) et Email Classification (Baseline), ce qui indique un modèle plus polyvalent que son étiquette orientée code ne le suggère. Sa fenêtre de 128 000 tokens renforce son intérêt pour l’analyse de longs fichiers, de bases documentaires ou de dépôts volumineux. À sa sortie, son niveau sur MATH le plaçait dans la partie correcte de sa génération, sans être un modèle dominant. Son autre atout majeur tient au prix, très économique, avec une tarification nettement inférieure à celle des LLM similaires et environ 7,3 fois plus basse que celle des modèles frontière.

Limites et points d'attention. Le modèle est ancien à l’échelle de l’IA, et ses performances sont aujourd’hui largement dépassées par des systèmes plus récents. Son score Coding (Baseline) reste modeste dans le classement Benchable, malgré son positionnement de modèle code, et Reasoning (Baseline) le situe plutôt dans une zone intermédiaire. Cette limite compte pour les tâches de programmation complexes, de débogage approfondi ou de raisonnement multi-étapes. Sa date de connaissance arrêtée au 30 juin 2024 impose aussi une prudence sur les bibliothèques, frameworks et pratiques apparus ensuite. En pratique, Qwen2.5-Coder 32B Instruct relève davantage d’un modèle marquant de sa période que d’une option de pointe actuelle, d’autant qu’un modèle de cet âge est souvent retiré du catalogue actif de son éditeur.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Qwen2.5-Coder 32B Instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast