qwen2.5-max

qwen2.5-max est un LLM de Qwen sorti le 25 janvier 2025. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, où les écarts de performance se creusent rapidement d’un cycle de modèles à l’autre.

qwen2.5-max est un LLM de Qwen sorti le 25 janvier 2025. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, où les écarts de performance se creusent rapidement d’un cycle de modèles à l’autre.

Son intérêt tient surtout à son positionnement au moment de sa sortie : un modèle alors compétitif sur certaines tâches de raisonnement scientifique, mais désormais à lire comme un jalon de la génération 2025 plutôt que comme une référence actuelle.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie25 janvier 2025

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 567,2 %34ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond56,1 %71ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202516,1 %76ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private1,0 %60ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
▶ qwen2.5-max67 %
Phi 465 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
▶ qwen2.5-max56 %
Phi 456 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1374150ᵉ

Notre analyse

Forces. À sa sortie, qwen2.5-max se situait dans le top 19% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Ce résultat en fait un modèle solide pour son époque sur le raisonnement scientifique général. Sur MATH level 5, il affiche aussi une performance correcte, dans une zone intermédiaire plutôt favorable parmi les modèles évalués. La couverture repose sur 2 sources de données concordantes, ce qui donne un socle minimalement stable pour situer ses résultats.

Limites et points d’attention. qwen2.5-max montre des faiblesses nettes dès que les tâches mathématiques deviennent plus sélectives. OTIS Mock AIME, centré sur des problèmes d’olympiades de niveau lycée, le place loin des meilleurs modèles évalués. FrontierMath, conçu pour des mathématiques de recherche très difficiles, révèle une performance quasi nulle. Son classement Arena text reste également éloigné du haut du tableau. Avec environ un an d’ancienneté, ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents, et ce type de modèle est souvent retiré ou remplacé dans les catalogues d’éditeurs.


Sources des données : Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.