Qwen

qwen2.5-max

qwen2.5-max est un LLM de Qwen sorti le 25 janvier 2025. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, où les écarts de performance se creusent rapidement d’un cycle de modèles à l’autre.

Son intérêt tient surtout à son positionnement au moment de sa sortie : un modèle alors compétitif sur certaines tâches de raisonnement scientifique, mais désormais à lire comme un jalon de la génération 2025 plutôt que comme une référence actuelle.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Date de sortie	25 janvier 2025

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	67,2 %	34ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	56,1 %	71ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	16,1 %	76ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	1,0 %	60ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Llama 4 Maverick73 %

▶ qwen2.5-max67 %

Phi 465 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Mistral Medium…60 %

▶ qwen2.5-max56 %

Phi 456 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1374	150ᵉ

Notre analyse

Forces. À sa sortie, qwen2.5-max se situait dans le top 19% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Ce résultat en fait un modèle solide pour son époque sur le raisonnement scientifique général. Sur MATH level 5, il affiche aussi une performance correcte, dans une zone intermédiaire plutôt favorable parmi les modèles évalués. La couverture repose sur 2 sources de données concordantes, ce qui donne un socle minimalement stable pour situer ses résultats.

Limites et points d’attention. qwen2.5-max montre des faiblesses nettes dès que les tâches mathématiques deviennent plus sélectives. OTIS Mock AIME, centré sur des problèmes d’olympiades de niveau lycée, le place loin des meilleurs modèles évalués. FrontierMath, conçu pour des mathématiques de recherche très difficiles, révèle une performance quasi nulle. Son classement Arena text reste également éloigné du haut du tableau. Avec environ un an d’ancienneté, ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents, et ce type de modèle est souvent retiré ou remplacé dans les catalogues d’éditeurs.

Sources des données : Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

qwen2.5-max

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast