Qwen2.5 72B Instruct

Qwen2.5 72B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous une licence autorisant l’usage commercial. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt…

Qwen2.5 72B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous une licence autorisant l’usage commercial. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux modèles actuels.

Le modèle se distingue par ses 73 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et un tarif très économique, inférieur de 82% à la moyenne des LLM similaires. Son entraînement reste marquant, avec 7,9 × 10²⁴ FLOP, soit environ 2,2 millions d’heures-GPU H100.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceQwen (open-weights, usage commercial autorisé)
Date de sortie19 septembre 2024
Connaissances jusqu'à2024-06-30
Multimodalnon
Paramètres73 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index9.6126ᵉ / 136
Math Index14.050ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)85,0 %147ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)83,8 %143ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)74,0 %135ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)67,0 %106ᵉ / 252benchable✅ Mesuré
GSM8k95,8 %9ᵉ / 47llm-statsAuto-déclaré
MT-Bench93,5 %1ᵉ / 12llm-statsAuto-déclaré
MBPP88,2 %5ᵉ / 33llm-statsAuto-déclaré
MMLU-Redux86,8 %32ᵉ / 48llm-statsAuto-déclaré
HumanEval86,6 %30ᵉ / 65llm-statsAuto-déclaré
IFEval84,1 %41ᵉ / 65llm-statsAuto-déclaré
MATH83,1 %15ᵉ / 70llm-statsAuto-déclaré
AlignBench81,6 %1ᵉ / 4llm-statsAuto-déclaré
Arena Hard81,2 %6ᵉ / 26llm-statsAuto-déclaré
MultiPL-E75,1 %7ᵉ / 13llm-statsAuto-déclaré
MMLU-Pro71,1 %77ᵉ / 125llm-statsAuto-déclaré
LiveCodeBench55,5 %36ᵉ / 72llm-statsAuto-déclaré
LiveBench52,3 %34ᵉ / 38llm-statsAuto-déclaré
GPQA49,0 %160ᵉ / 213llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ Qwen2.5 72B Instruct9.6

Math Index

gemini-3-flash97.0
DeepSeek V3.292.0
▶ Qwen2.5 72B Instruct14.0

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,36 $0,4 $n.d.
artificialanalysis0,36 $0,4 $0,12 $

Prix en dollars US par million de tokens.

Sa tarification se situe 82 % en dessous de la moyenne des LLM similaires, et 13,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable4 min 59 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement7,9 × 10²⁴ FLOP
Jeu de donnéesUnspecified unreleased
PaysChina

Notre analyse

Forces. À sa sortie, Qwen2.5 72B Instruct se situait dans le haut du panier de sa génération sur GPQA, dans le top 37% des LLM comparables de la même période. Ses meilleurs résultats Benchable concernent les hallucinations et l’éthique, deux évaluations où il atteint le top 10, ce qui signale un comportement particulièrement robuste sur ces tests de base. Le modèle affiche aussi de bons résultats en General Knowledge (connaissances générales) et en Email Classification (classement d’e-mails), avec des scores élevés malgré un positionnement moins dominant. Son autre force concrète est économique : les prix d’entrée et de sortie le placent très nettement sous la moyenne des LLM similaires et environ 13,4 fois moins cher que les modèles frontière.

Limites et points d'attention. Qwen2.5 72B Instruct est aujourd’hui un modèle ancien, probablement dépassé par les générations récentes et souvent plus proposé par l’éditeur. Ses connaissances s’arrêtent au 2024-06-30, ce qui limite son intérêt sur les sujets postérieurs. Les indices globaux le placent en bas de tableau sur Intelligence Index et Math Index, et ses résultats en Coding (programmation) comme en Mathematics (mathématiques) restent plutôt intermédiaires dans Benchable. La fiche garde surtout un intérêt historique et économique : elle documente un grand modèle chinois open-weights, entraîné avec un effort massif d’environ 1 000 GPU H100 tournant trois mois, mais positionné désormais comme une référence de sa période plutôt qu’un choix de pointe.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).