Qwen

Qwen 3.6 Max

Qwen 3.6 Max est un LLM de Qwen sorti le 20 avril 2026. Son profil public le situe dans la catégorie des modèles généralistes orientés raisonnement, avec des résultats particulièrement solides en sciences, en mathématiques et en correction de code.

À sa sortie, il se plaçait dans le top 18% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Sa fiche se distingue aussi par une présence en top 10 sur SWE-Bench verified, qui mesure la résolution de vrais bugs logiciels issus de GitHub.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Date de sortie	20 avril 2026

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: OTIS Mock AIME 2024-2025	91,1 %	21ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	89,1 %	18ᵉ / 132	epoch	✅ Mesuré
Epoch: SWE-Bench verified	76,7 %	9ᵉ / 32	epoch	✅ Mesuré
Epoch: SimpleQA Verified	56,9 %	12ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	50,0 %	16ᵉ / 64	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	23,1 %	26ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	17,0 %	30ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	4,2 %	27ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Grok 4.3 Beta93 %

▶ Qwen 3.6 Max91 %

Muse Spark89 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

DeepSeek V4 Pro90 %

▶ Qwen 3.6 Max89 %

Grok 4.3 Beta89 %

Notre analyse

Forces. Qwen 3.6 Max affiche ses meilleurs signaux sur les tâches exigeant du raisonnement structuré. GPQA diamond le place dans le haut du panier de sa période de sortie pour les questions scientifiques avancées. SWE-Bench verified constitue un autre point fort, avec une position en top 10 sur la résolution de bugs réels, ce qui indique une compétence notable en analyse de code et en correction logicielle. Les résultats sur OTIS Mock AIME 2024-2025 montrent aussi une bonne tenue sur les olympiades de mathématiques de niveau lycée, tandis que FrontierMath Public confirme une capacité réelle sur des problèmes mathématiques très difficiles.

Limites et points d'attention. La performance baisse nettement sur FrontierMath Private, ce qui suggère une robustesse plus limitée face aux problèmes de recherche mathématique les plus sélectifs. SimpleQA Verified reste correct mais moins distinctif que les résultats en science, en code et en mathématiques, ce qui invite à ne pas réduire le modèle à un outil de vérification factuelle. La couverture repose sur une seule source de données concordante, donc l’évaluation disponible reste moins diversifiée que pour des modèles davantage testés publiquement. Le profil convient surtout aux tâches de raisonnement scientifique, de mathématiques avancées et de correction de code.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Qwen 3.6 Max

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast