Qwen

Qwen2.5 72B Instruct

Qwen2.5 72B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous une licence autorisant l’usage commercial. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt…

Le modèle se distingue par ses 73 milliards de paramètres, une fenêtre de contexte de 131 072 tokens et un tarif très économique, inférieur de 82% à la moyenne des LLM similaires. Son entraînement reste marquant, avec 7,9 × 10²⁴ FLOP, soit environ 2,2 millions d’heures-GPU H100.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Qwen (open-weights, usage commercial autorisé)
Date de sortie	19 septembre 2024
Connaissances jusqu'à	2024-06-30
Multimodal	non
Paramètres	73 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	9.6	126ᵉ / 136
Math Index	14.0	50ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	85,0 %	147ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	83,8 %	143ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	74,0 %	135ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	67,0 %	106ᵉ / 252	benchable	✅ Mesuré
GSM8k	95,8 %	9ᵉ / 47	llm-stats	Auto-déclaré
MT-Bench	93,5 %	1ᵉ / 12	llm-stats	Auto-déclaré
MBPP	88,2 %	5ᵉ / 33	llm-stats	Auto-déclaré
MMLU-Redux	86,8 %	32ᵉ / 48	llm-stats	Auto-déclaré
HumanEval	86,6 %	30ᵉ / 65	llm-stats	Auto-déclaré
IFEval	84,1 %	41ᵉ / 65	llm-stats	Auto-déclaré
MATH	83,1 %	15ᵉ / 70	llm-stats	Auto-déclaré
AlignBench	81,6 %	1ᵉ / 4	llm-stats	Auto-déclaré
Arena Hard	81,2 %	6ᵉ / 26	llm-stats	Auto-déclaré
MultiPL-E	75,1 %	7ᵉ / 13	llm-stats	Auto-déclaré
MMLU-Pro	71,1 %	77ᵉ / 125	llm-stats	Auto-déclaré
LiveCodeBench	55,5 %	36ᵉ / 72	llm-stats	Auto-déclaré
LiveBench	52,3 %	34ᵉ / 38	llm-stats	Auto-déclaré
GPQA	49,0 %	160ᵉ / 213	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Llama 4 Maverick14.3

▶ Qwen2.5 72B Instruct9.6

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Llama 4 Maverick19.3

▶ Qwen2.5 72B Instruct14.0

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,36 $	0,4 $	n.d.
artificialanalysis	0,36 $	0,4 $	0,12 $

Prix en dollars US par million de tokens.

Sa tarification se situe 82 % en dessous de la moyenne des LLM similaires, et 13,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	4 min 59 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	7,9 × 10²⁴ FLOP
Jeu de données	Unspecified unreleased
Pays	China

Notre analyse

Forces. À sa sortie, Qwen2.5 72B Instruct se situait dans le haut du panier de sa génération sur GPQA, dans le top 37% des LLM comparables de la même période. Ses meilleurs résultats Benchable concernent les hallucinations et l’éthique, deux évaluations où il atteint le top 10, ce qui signale un comportement particulièrement robuste sur ces tests de base. Le modèle affiche aussi de bons résultats en General Knowledge (connaissances générales) et en Email Classification (classement d’e-mails), avec des scores élevés malgré un positionnement moins dominant. Son autre force concrète est économique : les prix d’entrée et de sortie le placent très nettement sous la moyenne des LLM similaires et environ 13,4 fois moins cher que les modèles frontière.

Limites et points d'attention. Qwen2.5 72B Instruct est aujourd’hui un modèle ancien, probablement dépassé par les générations récentes et souvent plus proposé par l’éditeur. Ses connaissances s’arrêtent au 2024-06-30, ce qui limite son intérêt sur les sujets postérieurs. Les indices globaux le placent en bas de tableau sur Intelligence Index et Math Index, et ses résultats en Coding (programmation) comme en Mathematics (mathématiques) restent plutôt intermédiaires dans Benchable. La fiche garde surtout un intérêt historique et économique : elle documente un grand modèle chinois open-weights, entraîné avec un effort massif d’environ 1 000 GPU H100 tournant trois mois, mais positionné désormais comme une référence de sa période plutôt qu’un choix de pointe.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Qwen2.5 72B Instruct

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast