Qwen 3.6 Max

Qwen 3.6 Max est un LLM de Qwen sorti le 20 avril 2026. Son profil public le situe dans la catégorie des modèles généralistes orientés raisonnement, avec des résultats particulièrement solides en sciences, en mathématiques et en correction de code.

Qwen 3.6 Max est un LLM de Qwen sorti le 20 avril 2026. Son profil public le situe dans la catégorie des modèles généralistes orientés raisonnement, avec des résultats particulièrement solides en sciences, en mathématiques et en correction de code.

À sa sortie, il se plaçait dans le top 18% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Sa fiche se distingue aussi par une présence en top 10 sur SWE-Bench verified, qui mesure la résolution de vrais bugs logiciels issus de GitHub.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie20 avril 2026

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: OTIS Mock AIME 2024-202591,1 %21ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond89,1 %18ᵉ / 132epoch✅ Mesuré
Epoch: SWE-Bench verified76,7 %9ᵉ / 32epoch✅ Mesuré
Epoch: SimpleQA Verified56,9 %12ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public50,0 %16ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private23,1 %26ᵉ / 69epoch✅ Mesuré
Epoch: Chess Puzzles17,0 %30ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private4,2 %27ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
▶ Qwen 3.6 Max91 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
▶ Qwen 3.6 Max89 %

Notre analyse

Forces. Qwen 3.6 Max affiche ses meilleurs signaux sur les tâches exigeant du raisonnement structuré. GPQA diamond le place dans le haut du panier de sa période de sortie pour les questions scientifiques avancées. SWE-Bench verified constitue un autre point fort, avec une position en top 10 sur la résolution de bugs réels, ce qui indique une compétence notable en analyse de code et en correction logicielle. Les résultats sur OTIS Mock AIME 2024-2025 montrent aussi une bonne tenue sur les olympiades de mathématiques de niveau lycée, tandis que FrontierMath Public confirme une capacité réelle sur des problèmes mathématiques très difficiles.

Limites et points d'attention. La performance baisse nettement sur FrontierMath Private, ce qui suggère une robustesse plus limitée face aux problèmes de recherche mathématique les plus sélectifs. SimpleQA Verified reste correct mais moins distinctif que les résultats en science, en code et en mathématiques, ce qui invite à ne pas réduire le modèle à un outil de vérification factuelle. La couverture repose sur une seule source de données concordante, donc l’évaluation disponible reste moins diversifiée que pour des modèles davantage testés publiquement. Le profil convient surtout aux tâches de raisonnement scientifique, de mathématiques avancées et de correction de code.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.