Qwen

Qwen2.5-32B

Qwen2.5-32B est un LLM de 32 milliards de paramètres publié par Qwen le 17 septembre 2024. Issu de Chine, il appartient à une génération désormais ancienne à l’échelle de l’IA, environ deux ans, ce qui le situe d’abord comme un modèle à comparer aux LLM de sa période plutôt qu’aux…

Son entraînement reste l’élément le plus marquant: 3,5 × 10²⁴ FLOP, soit environ 975 000 heures-GPU H100, l’équivalent d’environ 450 GPU H100 mobilisés pendant trois mois. À sa sortie, Qwen2.5-32B se plaçait dans le top 26% des LLM de sa génération sur GPQA diamond (questions scientifiques niveau doctorat).

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Date de sortie	17 septembre 2024
Paramètres	32 milliards

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	56,1 %	43ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	46,1 %	92ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	7,4 %	84ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Qwen2.5-32B56 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Qwen2.5-32B46 %

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	3,5 × 10²⁴ FLOP
Taille du jeu d'entraînement	1,8 × 10¹³
Jeu de données	Unspecified unreleased
Pays	China

Notre analyse

Forces. À sa sortie, Qwen2.5-32B montrait un niveau compétitif sur GPQA diamond, avec une place dans le haut du panier de sa génération pour les questions scientifiques de niveau doctorat. Son score sur MATH level 5 le situe plutôt au milieu de tableau, mais avec un résultat suffisamment solide pour signaler des capacités de raisonnement mathématique non triviales parmi les modèles de sa période. Le format 32 milliards de paramètres en fait aussi un modèle nettement plus compact que les très grands LLM, tout en ayant bénéficié d’un entraînement massif à l’échelle de 2024.

Limites et points d'attention. L’ancienneté est le principal facteur de lecture: environ deux ans représentent un cycle très long dans l’IA, et les performances de Qwen2.5-32B sont aujourd’hui largement dépassées par les modèles plus récents. Son résultat sur OTIS Mock AIME 2024-2025, centré sur les olympiades de mathématiques niveau lycée, indique une faiblesse nette sur les problèmes compétitifs exigeants. Son rang global sur GPQA diamond et MATH level 5 n’en fait pas un modèle de référence durable hors contexte historique. Il est aussi probablement souvent retiré des catalogues actuels de l’éditeur. Le volume d’entraînement reste toutefois notable: 975 000 heures-GPU H100, équivalant à 450 GPU H100 pendant trois mois. Les données reposent sur une seule source concordante, ce qui limite la profondeur de recoupement public.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Qwen2.5-32B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast