Qwen2.5-32B

Qwen2.5-32B est un LLM de 32 milliards de paramètres publié par Qwen le 17 septembre 2024. Issu de Chine, il appartient à une génération désormais ancienne à l’échelle de l’IA, environ deux ans, ce qui le situe d’abord comme un modèle à comparer aux LLM de sa période plutôt qu’aux…

Qwen2.5-32B est un LLM de 32 milliards de paramètres publié par Qwen le 17 septembre 2024. Issu de Chine, il appartient à une génération désormais ancienne à l’échelle de l’IA, environ deux ans, ce qui le situe d’abord comme un modèle à comparer aux LLM de sa période plutôt qu’aux modèles haut de gamme actuels.

Son entraînement reste l’élément le plus marquant: 3,5 × 10²⁴ FLOP, soit environ 975 000 heures-GPU H100, l’équivalent d’environ 450 GPU H100 mobilisés pendant trois mois. À sa sortie, Qwen2.5-32B se plaçait dans le top 26% des LLM de sa génération sur GPQA diamond (questions scientifiques niveau doctorat).

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie17 septembre 2024
Paramètres32 milliards

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 556,1 %43ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond46,1 %92ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20257,4 %84ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Qwen2.5-32B56 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Qwen2.5-32B46 %

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement3,5 × 10²⁴ FLOP
Taille du jeu d'entraînement1,8 × 10¹³
Jeu de donnéesUnspecified unreleased
PaysChina

Notre analyse

Forces. À sa sortie, Qwen2.5-32B montrait un niveau compétitif sur GPQA diamond, avec une place dans le haut du panier de sa génération pour les questions scientifiques de niveau doctorat. Son score sur MATH level 5 le situe plutôt au milieu de tableau, mais avec un résultat suffisamment solide pour signaler des capacités de raisonnement mathématique non triviales parmi les modèles de sa période. Le format 32 milliards de paramètres en fait aussi un modèle nettement plus compact que les très grands LLM, tout en ayant bénéficié d’un entraînement massif à l’échelle de 2024.

Limites et points d'attention. L’ancienneté est le principal facteur de lecture: environ deux ans représentent un cycle très long dans l’IA, et les performances de Qwen2.5-32B sont aujourd’hui largement dépassées par les modèles plus récents. Son résultat sur OTIS Mock AIME 2024-2025, centré sur les olympiades de mathématiques niveau lycée, indique une faiblesse nette sur les problèmes compétitifs exigeants. Son rang global sur GPQA diamond et MATH level 5 n’en fait pas un modèle de référence durable hors contexte historique. Il est aussi probablement souvent retiré des catalogues actuels de l’éditeur. Le volume d’entraînement reste toutefois notable: 975 000 heures-GPU H100, équivalant à 450 GPU H100 pendant trois mois. Les données reposent sur une seule source concordante, ce qui limite la profondeur de recoupement public.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.