Qwen2.5-32B
Qwen2.5-32B est un LLM de 32 milliards de paramètres publié par Qwen le 17 septembre 2024. Issu de Chine, il appartient à une génération désormais ancienne à l’échelle de l’IA, environ deux ans, ce qui le situe d’abord comme un modèle à comparer aux LLM de sa période plutôt qu’aux…
Qwen2.5-32B est un LLM de 32 milliards de paramètres publié par Qwen le 17 septembre 2024. Issu de Chine, il appartient à une génération désormais ancienne à l’échelle de l’IA, environ deux ans, ce qui le situe d’abord comme un modèle à comparer aux LLM de sa période plutôt qu’aux modèles haut de gamme actuels.
Son entraînement reste l’élément le plus marquant: 3,5 × 10²⁴ FLOP, soit environ 975 000 heures-GPU H100, l’équivalent d’environ 450 GPU H100 mobilisés pendant trois mois. À sa sortie, Qwen2.5-32B se plaçait dans le top 26% des LLM de sa génération sur GPQA diamond (questions scientifiques niveau doctorat).
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Date de sortie | 17 septembre 2024 |
| Paramètres | 32 milliards |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 56,1 % | 43ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 46,1 % | 92ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 7,4 % | 84ᵉ / 111 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: MATH level 5
Epoch: GPQA diamond
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 3,5 × 10²⁴ FLOP |
| Taille du jeu d'entraînement | 1,8 × 10¹³ |
| Jeu de données | Unspecified unreleased |
| Pays | China |
Notre analyse
Forces. À sa sortie, Qwen2.5-32B montrait un niveau compétitif sur GPQA diamond, avec une place dans le haut du panier de sa génération pour les questions scientifiques de niveau doctorat. Son score sur MATH level 5 le situe plutôt au milieu de tableau, mais avec un résultat suffisamment solide pour signaler des capacités de raisonnement mathématique non triviales parmi les modèles de sa période. Le format 32 milliards de paramètres en fait aussi un modèle nettement plus compact que les très grands LLM, tout en ayant bénéficié d’un entraînement massif à l’échelle de 2024.
Limites et points d'attention. L’ancienneté est le principal facteur de lecture: environ deux ans représentent un cycle très long dans l’IA, et les performances de Qwen2.5-32B sont aujourd’hui largement dépassées par les modèles plus récents. Son résultat sur OTIS Mock AIME 2024-2025, centré sur les olympiades de mathématiques niveau lycée, indique une faiblesse nette sur les problèmes compétitifs exigeants. Son rang global sur GPQA diamond et MATH level 5 n’en fait pas un modèle de référence durable hors contexte historique. Il est aussi probablement souvent retiré des catalogues actuels de l’éditeur. Le volume d’entraînement reste toutefois notable: 975 000 heures-GPU H100, équivalant à 450 GPU H100 pendant trois mois. Les données reposent sur une seule source concordante, ce qui limite la profondeur de recoupement public.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.