Qwen3-Max-Instruct
Qwen3-Max-Instruct est un LLM de Qwen, sorti le 24 septembre 2025, positionné comme un modèle d’instruction généraliste. Son profil ressort surtout sur les tâches de raisonnement mathématique standardisé et sur les questions factuelles vérifiables.
Qwen3-Max-Instruct est un LLM de Qwen, sorti le 24 septembre 2025, positionné comme un modèle d’instruction généraliste. Son profil ressort surtout sur les tâches de raisonnement mathématique standardisé et sur les questions factuelles vérifiables.
À sa sortie, il se situait dans le top 26% des LLM de sa génération sur Epoch: GPQA diamond, un test de questions scientifiques de niveau doctorat. Cette place indique un modèle compétitif pour son époque, sans le placer tout en haut du classement global.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Date de sortie | 24 septembre 2025 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 97,1 % | 6ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 73,3 % | 48ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 72,6 % | 56ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 67,5 % | 5ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 4,0 % | 43ᵉ / 43 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: MATH level 5
Epoch: OTIS Mock AIME 2024-2025
Notre analyse
Forces. Qwen3-Max-Instruct obtient ses résultats les plus convaincants sur Epoch: MATH level 5, où il apparaît dans le top 10, signe d’une bonne tenue sur des problèmes mathématiques exigeants mais structurés. Il se distingue aussi sur SimpleQA Verified, également dans le top 10, ce qui indique une capacité solide à répondre à des questions factuelles vérifiables. Sur GPQA diamond, son classement global reste intermédiaire, mais sa position dans le top 26% des LLM contemporains à sa sortie montre qu’il appartenait au haut du panier de sa génération sur les questions scientifiques difficiles.
Limites et points d'attention. Le résultat sur Chess Puzzles est très faible, avec une dernière place dans le classement disponible, ce qui signale une limite nette sur la résolution de problèmes d’échecs. Sur OTIS Mock AIME 2024-2025, consacré aux olympiades de mathématiques de niveau lycée, le modèle reste plutôt en milieu de tableau malgré un score correct, donc la performance est moins distinctive que sur MATH level 5. L’évaluation repose sur une seule source de données concordante, ce qui invite à lire ces résultats comme une photographie utile mais limitée. Profil surtout pertinent pour l’analyse factuelle, les mathématiques standardisées et les tâches scientifiques générales.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.