Qwen

Qwen3-Max-Instruct

Qwen3-Max-Instruct est un LLM de Qwen, sorti le 24 septembre 2025, positionné comme un modèle d’instruction généraliste. Son profil ressort surtout sur les tâches de raisonnement mathématique standardisé et sur les questions factuelles vérifiables.

À sa sortie, il se situait dans le top 26% des LLM de sa génération sur Epoch: GPQA diamond, un test de questions scientifiques de niveau doctorat. Cette place indique un modèle compétitif pour son époque, sans le placer tout en haut du classement global.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Date de sortie	24 septembre 2025

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	97,1 %	6ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	73,3 %	48ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	72,6 %	56ᵉ / 132	epoch	✅ Mesuré
Epoch: SimpleQA Verified	67,5 %	5ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	4,0 %	43ᵉ / 43	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

▶ Qwen3-Max-Instruct97 %

DeepSeek-R197 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Muse Spark89 %

▶ Qwen3-Max-Instruct73 %

Mistral Medium…32 %

Notre analyse

Forces. Qwen3-Max-Instruct obtient ses résultats les plus convaincants sur Epoch: MATH level 5, où il apparaît dans le top 10, signe d’une bonne tenue sur des problèmes mathématiques exigeants mais structurés. Il se distingue aussi sur SimpleQA Verified, également dans le top 10, ce qui indique une capacité solide à répondre à des questions factuelles vérifiables. Sur GPQA diamond, son classement global reste intermédiaire, mais sa position dans le top 26% des LLM contemporains à sa sortie montre qu’il appartenait au haut du panier de sa génération sur les questions scientifiques difficiles.

Limites et points d'attention. Le résultat sur Chess Puzzles est très faible, avec une dernière place dans le classement disponible, ce qui signale une limite nette sur la résolution de problèmes d’échecs. Sur OTIS Mock AIME 2024-2025, consacré aux olympiades de mathématiques de niveau lycée, le modèle reste plutôt en milieu de tableau malgré un score correct, donc la performance est moins distinctive que sur MATH level 5. L’évaluation repose sur une seule source de données concordante, ce qui invite à lire ces résultats comme une photographie utile mais limitée. Profil surtout pertinent pour l’analyse factuelle, les mathématiques standardisées et les tâches scientifiques générales.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Qwen3-Max-Instruct

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast