Qwen2.5-72B

Qwen2.5-72B est un LLM de Qwen, sorti le 19 septembre 2024, avec 73 milliards de paramètres. Près de deux ans plus tard, cette ancienneté pèse lourd à l’échelle de l’IA : le modèle doit surtout être lu comme un grand modèle de sa génération, et non comme une référence actuelle.

Qwen2.5-72B est un LLM de Qwen, sorti le 19 septembre 2024, avec 73 milliards de paramètres. Près de deux ans plus tard, cette ancienneté pèse lourd à l’échelle de l’IA : le modèle doit surtout être lu comme un grand modèle de sa génération, et non comme une référence actuelle.

Son entraînement reste l’élément le plus marquant : 7,8 × 10²⁴ FLOP, soit environ 2,2 millions d’heures-GPU H100, l’équivalent d’environ 1 000 GPU H100 tournant trois mois. Qwen2.5-72B illustre ainsi le niveau d’investissement nécessaire aux grands LLM chinois de 2024.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie19 septembre 2024
Paramètres73 milliards

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 563,2 %38ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond49,1 %81ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20258,1 %82ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Qwen2.5-72B63 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Qwen2.5-72B49 %

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement7,8 × 10²⁴ FLOP
Taille du jeu d'entraînement1,8 × 10¹³
Jeu de donnéesUnspecified unreleased
PaysChina

Notre analyse

Forces. À sa sortie, Qwen2.5-72B se situait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, avec un classement dans le top 17% des LLM comparables de la même période. Son résultat sur MATH level 5 indique aussi une compétence mathématique solide pour un modèle de 2024, sans atteindre les toutes premières places du classement. Le modèle se distingue surtout par son échelle, 73 milliards de paramètres, et par un entraînement très conséquent, signe d’une ambition de modèle généraliste lourd plutôt que d’un système spécialisé léger.

Limites et points d'attention. Qwen2.5-72B est aujourd’hui largement dépassé par les modèles plus récents, et un modèle de cet âge est souvent retiré ou marginalisé dans les catalogues d’éditeur. Son score sur OTIS Mock AIME 2024-2025, centré sur les olympiades de mathématiques de niveau lycée, le place nettement en retrait sur ce type de raisonnement compétitif. La couverture disponible repose sur une seule source de données concordante, ce qui limite la robustesse des comparaisons. Ce qui reste le plus informatif est l’effort d’entraînement, avec 7,8 × 10²⁴ FLOP et environ 2,2 millions d’heures-GPU H100, davantage que sa pertinence actuelle en production.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.