Qwen2.5-Coder 32B Instruct
Qwen2.5-Coder 32B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous licence Apache 2.0 avec usage commercial autorisé. Son positionnement associe un format 32 milliards de paramètres, une fenêtre de contexte de 128 000 tokens et une spécialisation affichée sur le…
Qwen2.5-Coder 32B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous licence Apache 2.0 avec usage commercial autorisé. Son positionnement associe un format 32 milliards de paramètres, une fenêtre de contexte de 128 000 tokens et une spécialisation affichée sur le code.
Avec environ deux ans d’ancienneté, le modèle appartient déjà à une génération très éloignée du rythme actuel de l’IA. Il se juge surtout par rapport aux modèles de sa période, où il affichait un coût très bas et des résultats particulièrement solides sur la réduction des hallucinations.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 19 septembre 2024 |
| Connaissances jusqu'à | 2024-06-30 |
| Multimodal | non |
| Paramètres | 32 milliards |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 96,2 % | 174ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 96,0 % | 197ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 77,0 % | 189ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 76,0 % | 131ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 54,5 % | 160ᵉ / 252 | benchable | ✅ Mesuré |
| HumanEval | 92,7 % | 6ᵉ / 65 | llm-stats | Auto-déclaré |
| GSM8k | 91,1 % | 23ᵉ / 47 | llm-stats | Auto-déclaré |
| MBPP | 90,2 % | 3ᵉ / 33 | llm-stats | Auto-déclaré |
| HellaSwag | 83,0 % | 16ᵉ / 27 | llm-stats | Auto-déclaré |
| Winogrande | 80,8 % | 10ᵉ / 22 | llm-stats | Auto-déclaré |
| MMLU-Redux | 77,5 % | 42ᵉ / 48 | llm-stats | Auto-déclaré |
| MMLU | 75,1 % | 75ᵉ / 98 | llm-stats | Auto-déclaré |
| ARC-C | 70,5 % | 21ᵉ / 34 | llm-stats | Auto-déclaré |
| MATH | 57,2 % | 50ᵉ / 70 | llm-stats | Auto-déclaré |
| TruthfulQA | 54,2 % | 14ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU-Pro | 50,4 % | 111ᵉ / 125 | llm-stats | Auto-déclaré |
| TheoremQA | 43,1 % | 3ᵉ / 6 | llm-stats | Auto-déclaré |
| LiveCodeBench | 31,4 % | 59ᵉ / 72 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Cloudflare | 0,66 $ | 1 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 66 % en dessous de la moyenne des LLM similaires, et 7,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 2 min 39 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen2.5-Coder 32B Instruct se distingue d’abord sur Hallucinations (Baseline), où il apparaît tout en haut du classement Benchable, un signal fort pour les tâches où la fiabilité factuelle compte. Ses résultats restent également élevés sur Ethics (Baseline), General Knowledge (Baseline) et Email Classification (Baseline), ce qui indique un modèle plus polyvalent que son étiquette orientée code ne le suggère. Sa fenêtre de 128 000 tokens renforce son intérêt pour l’analyse de longs fichiers, de bases documentaires ou de dépôts volumineux. À sa sortie, son niveau sur MATH le plaçait dans la partie correcte de sa génération, sans être un modèle dominant. Son autre atout majeur tient au prix, très économique, avec une tarification nettement inférieure à celle des LLM similaires et environ 7,3 fois plus basse que celle des modèles frontière.
Limites et points d'attention. Le modèle est ancien à l’échelle de l’IA, et ses performances sont aujourd’hui largement dépassées par des systèmes plus récents. Son score Coding (Baseline) reste modeste dans le classement Benchable, malgré son positionnement de modèle code, et Reasoning (Baseline) le situe plutôt dans une zone intermédiaire. Cette limite compte pour les tâches de programmation complexes, de débogage approfondi ou de raisonnement multi-étapes. Sa date de connaissance arrêtée au 30 juin 2024 impose aussi une prudence sur les bibliothèques, frameworks et pratiques apparus ensuite. En pratique, Qwen2.5-Coder 32B Instruct relève davantage d’un modèle marquant de sa période que d’une option de pointe actuelle, d’autant qu’un modèle de cet âge est souvent retiré du catalogue actif de son éditeur.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).