Qwen2.5 72B Instruct
Qwen2.5 72B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous une licence autorisant l’usage commercial. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt…
Qwen2.5 72B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous une licence autorisant l’usage commercial. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux modèles actuels.
Le modèle se distingue par ses 73 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et un tarif très économique, inférieur de 82% à la moyenne des LLM similaires. Son entraînement reste marquant, avec 7,9 × 10²⁴ FLOP, soit environ 2,2 millions d’heures-GPU H100.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Qwen (open-weights, usage commercial autorisé) |
| Date de sortie | 19 septembre 2024 |
| Connaissances jusqu'à | 2024-06-30 |
| Multimodal | non |
| Paramètres | 73 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 9.6 | 126ᵉ / 136 |
| Math Index | 14.0 | 50ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 85,0 % | 147ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 83,8 % | 143ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 74,0 % | 135ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 67,0 % | 106ᵉ / 252 | benchable | ✅ Mesuré |
| GSM8k | 95,8 % | 9ᵉ / 47 | llm-stats | Auto-déclaré |
| MT-Bench | 93,5 % | 1ᵉ / 12 | llm-stats | Auto-déclaré |
| MBPP | 88,2 % | 5ᵉ / 33 | llm-stats | Auto-déclaré |
| MMLU-Redux | 86,8 % | 32ᵉ / 48 | llm-stats | Auto-déclaré |
| HumanEval | 86,6 % | 30ᵉ / 65 | llm-stats | Auto-déclaré |
| IFEval | 84,1 % | 41ᵉ / 65 | llm-stats | Auto-déclaré |
| MATH | 83,1 % | 15ᵉ / 70 | llm-stats | Auto-déclaré |
| AlignBench | 81,6 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| Arena Hard | 81,2 % | 6ᵉ / 26 | llm-stats | Auto-déclaré |
| MultiPL-E | 75,1 % | 7ᵉ / 13 | llm-stats | Auto-déclaré |
| MMLU-Pro | 71,1 % | 77ᵉ / 125 | llm-stats | Auto-déclaré |
| LiveCodeBench | 55,5 % | 36ᵉ / 72 | llm-stats | Auto-déclaré |
| LiveBench | 52,3 % | 34ᵉ / 38 | llm-stats | Auto-déclaré |
| GPQA | 49,0 % | 160ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,36 $ | 0,4 $ | n.d. |
| artificialanalysis | 0,36 $ | 0,4 $ | 0,12 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 82 % en dessous de la moyenne des LLM similaires, et 13,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 4 min 59 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 7,9 × 10²⁴ FLOP |
| Jeu de données | Unspecified unreleased |
| Pays | China |
Notre analyse
Forces. À sa sortie, Qwen2.5 72B Instruct se situait dans le haut du panier de sa génération sur GPQA, dans le top 37% des LLM comparables de la même période. Ses meilleurs résultats Benchable concernent les hallucinations et l’éthique, deux évaluations où il atteint le top 10, ce qui signale un comportement particulièrement robuste sur ces tests de base. Le modèle affiche aussi de bons résultats en General Knowledge (connaissances générales) et en Email Classification (classement d’e-mails), avec des scores élevés malgré un positionnement moins dominant. Son autre force concrète est économique : les prix d’entrée et de sortie le placent très nettement sous la moyenne des LLM similaires et environ 13,4 fois moins cher que les modèles frontière.
Limites et points d'attention. Qwen2.5 72B Instruct est aujourd’hui un modèle ancien, probablement dépassé par les générations récentes et souvent plus proposé par l’éditeur. Ses connaissances s’arrêtent au 2024-06-30, ce qui limite son intérêt sur les sujets postérieurs. Les indices globaux le placent en bas de tableau sur Intelligence Index et Math Index, et ses résultats en Coding (programmation) comme en Mathematics (mathématiques) restent plutôt intermédiaires dans Benchable. La fiche garde surtout un intérêt historique et économique : elle documente un grand modèle chinois open-weights, entraîné avec un effort massif d’environ 1 000 GPU H100 tournant trois mois, mais positionné désormais comme une référence de sa période plutôt qu’un choix de pointe.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).