Qwen3-Max-Instruct

Qwen3-Max-Instruct est un LLM de Qwen, sorti le 24 septembre 2025, positionné comme un modèle d’instruction généraliste. Son profil ressort surtout sur les tâches de raisonnement mathématique standardisé et sur les questions factuelles vérifiables.

Qwen3-Max-Instruct est un LLM de Qwen, sorti le 24 septembre 2025, positionné comme un modèle d’instruction généraliste. Son profil ressort surtout sur les tâches de raisonnement mathématique standardisé et sur les questions factuelles vérifiables.

À sa sortie, il se situait dans le top 26% des LLM de sa génération sur Epoch: GPQA diamond, un test de questions scientifiques de niveau doctorat. Cette place indique un modèle compétitif pour son époque, sans le placer tout en haut du classement global.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie24 septembre 2025

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 597,1 %6ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202573,3 %48ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond72,6 %56ᵉ / 132epoch✅ Mesuré
Epoch: SimpleQA Verified67,5 %5ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles4,0 %43ᵉ / 43epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
▶ Qwen3-Max-Instruct97 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
▶ Qwen3-Max-Instruct73 %

Notre analyse

Forces. Qwen3-Max-Instruct obtient ses résultats les plus convaincants sur Epoch: MATH level 5, où il apparaît dans le top 10, signe d’une bonne tenue sur des problèmes mathématiques exigeants mais structurés. Il se distingue aussi sur SimpleQA Verified, également dans le top 10, ce qui indique une capacité solide à répondre à des questions factuelles vérifiables. Sur GPQA diamond, son classement global reste intermédiaire, mais sa position dans le top 26% des LLM contemporains à sa sortie montre qu’il appartenait au haut du panier de sa génération sur les questions scientifiques difficiles.

Limites et points d'attention. Le résultat sur Chess Puzzles est très faible, avec une dernière place dans le classement disponible, ce qui signale une limite nette sur la résolution de problèmes d’échecs. Sur OTIS Mock AIME 2024-2025, consacré aux olympiades de mathématiques de niveau lycée, le modèle reste plutôt en milieu de tableau malgré un score correct, donc la performance est moins distinctive que sur MATH level 5. L’évaluation repose sur une seule source de données concordante, ce qui invite à lire ces résultats comme une photographie utile mais limitée. Profil surtout pertinent pour l’analyse factuelle, les mathématiques standardisées et les tâches scientifiques générales.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.