Qwen 3.6 Max
Qwen 3.6 Max est un LLM de Qwen sorti le 20 avril 2026. Son profil public le situe dans la catégorie des modèles généralistes orientés raisonnement, avec des résultats particulièrement solides en sciences, en mathématiques et en correction de code.
Qwen 3.6 Max est un LLM de Qwen sorti le 20 avril 2026. Son profil public le situe dans la catégorie des modèles généralistes orientés raisonnement, avec des résultats particulièrement solides en sciences, en mathématiques et en correction de code.
À sa sortie, il se plaçait dans le top 18% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Sa fiche se distingue aussi par une présence en top 10 sur SWE-Bench verified, qui mesure la résolution de vrais bugs logiciels issus de GitHub.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Date de sortie | 20 avril 2026 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: OTIS Mock AIME 2024-2025 | 91,1 % | 21ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 89,1 % | 18ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: SWE-Bench verified | 76,7 % | 9ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 56,9 % | 12ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 50,0 % | 16ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 23,1 % | 26ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 17,0 % | 30ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 4,2 % | 27ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: OTIS Mock AIME 2024-2025
Epoch: GPQA diamond
Notre analyse
Forces. Qwen 3.6 Max affiche ses meilleurs signaux sur les tâches exigeant du raisonnement structuré. GPQA diamond le place dans le haut du panier de sa période de sortie pour les questions scientifiques avancées. SWE-Bench verified constitue un autre point fort, avec une position en top 10 sur la résolution de bugs réels, ce qui indique une compétence notable en analyse de code et en correction logicielle. Les résultats sur OTIS Mock AIME 2024-2025 montrent aussi une bonne tenue sur les olympiades de mathématiques de niveau lycée, tandis que FrontierMath Public confirme une capacité réelle sur des problèmes mathématiques très difficiles.
Limites et points d'attention. La performance baisse nettement sur FrontierMath Private, ce qui suggère une robustesse plus limitée face aux problèmes de recherche mathématique les plus sélectifs. SimpleQA Verified reste correct mais moins distinctif que les résultats en science, en code et en mathématiques, ce qui invite à ne pas réduire le modèle à un outil de vérification factuelle. La couverture repose sur une seule source de données concordante, donc l’évaluation disponible reste moins diversifiée que pour des modèles davantage testés publiquement. Le profil convient surtout aux tâches de raisonnement scientifique, de mathématiques avancées et de correction de code.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.