Qwen

Qwen3.7 Max

Qwen3.7 Max est un LLM propriétaire de Qwen, originaire de Chine, sorti le 19 mai 2026. Son positionnement combine une fenêtre de contexte de 1 000 000 tokens, des poids non ouverts et un tarif économique, avec une entrée à 1,25 $ par million de tokens et une sortie à 3,75 $ par million.

Le modèle se distingue par un profil très compétitif en raisonnement, en code et en tâches agentiques. À sa sortie, il figurait dans le top 11% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat, avec 8 sources de données concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Proprietary (poids non ouverts)
Date de sortie	19 mai 2026
Multimodal	non
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	46.0	7ᵉ / 136
Code Index	66.0	8ᵉ / 50
Agentic Index	30.6	12ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	95,0 %	13ᵉ / 111	epoch	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	92,5 %	1ᵉ / 52	pinchbench	✅ Mesuré
Epoch: GPQA diamond	91,6 %	9ᵉ / 132	epoch	✅ Mesuré
LiveBench: Mathematics	85,2 %	19ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	85,0 %	27ᵉ / 252	benchable	✅ Mesuré
LiveBench: Reasoning	83,3 %	10ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	79,7 %	13ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	77,3 %	7ᵉ / 32	epoch	✅ Mesuré
LiveBench: Global average	74,3 %	13ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	74,2 %	27ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	74,0 %	4ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	71,8 %	15ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	64,6 %	11ᵉ / 31	epoch	✅ Mesuré
Epoch: SimpleQA Verified	58,5 %	10ᵉ / 52	epoch	✅ Mesuré
LiveBench: Agentic Coding	51,7 %	24ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	34,1 %	9ᵉ / 32	epoch	✅ Mesuré
Epoch: Chess Puzzles	22,0 %	20ᵉ / 43	epoch	✅ Mesuré
HMMT Feb 26	97,1 %	1ᵉ / 11	llm-stats	Auto-déclaré
MMLU-Redux	95,0 %	1ᵉ / 48	llm-stats	Auto-déclaré
IFEval	94,3 %	3ᵉ / 65	llm-stats	Auto-déclaré
GPQA	92,4 %	8ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench v6	91,6 %	1ᵉ / 53	llm-stats	Auto-déclaré
Global PIQA	91,4 %	3ᵉ / 13	llm-stats	Auto-déclaré
MMMLU	90,3 %	8ᵉ / 49	llm-stats	Auto-déclaré
IMO-AnswerBench	90,0 %	3ᵉ / 18	llm-stats	Auto-déclaré
MMLU-Pro	89,6 %	1ᵉ / 125	llm-stats	Auto-déclaré
MAXIFE	89,2 %	1ᵉ / 11	llm-stats	Auto-déclaré
MMLU-ProX	87,0 %	1ᵉ / 32	llm-stats	Auto-déclaré
SpreadSheetBench-v1	87,0 %	2ᵉ / 3	llm-stats	Auto-déclaré
PolyMATH	86,5 %	1ᵉ / 23	llm-stats	Auto-déclaré
Include	86,2 %	2ᵉ / 31	llm-stats	Auto-déclaré
WMT24++	85,8 %	3ᵉ / 23	llm-stats	Auto-déclaré
SWE-Bench Verified	80,4 %	10ᵉ / 100	llm-stats	Auto-déclaré
IFBench	79,1 %	4ᵉ / 27	llm-stats	Auto-déclaré
SWE-bench Multilingual	78,3 %	3ᵉ / 32	llm-stats	Auto-déclaré
MCP Atlas	76,4 %	7ᵉ / 27	llm-stats	Auto-déclaré
BFCL-V4	75,0 %	1ᵉ / 13	llm-stats	Auto-déclaré
LiveBench	74,3 %	19ᵉ / 38	llm-stats	n.d.
SuperGPQA	73,6 %	1ᵉ / 34	llm-stats	Auto-déclaré
Terminal-Bench 2.0	69,7 %	8ᵉ / 48	llm-stats	Auto-déclaré
Claw-Eval	65,2 %	4ᵉ / 12	llm-stats	Auto-déclaré
ZClawBench	64,3 %	1ᵉ / 4	llm-stats	Auto-déclaré
MCP-Mark	60,8 %	2ᵉ / 8	llm-stats	Auto-déclaré
SWE-Bench Pro	60,6 %	6ᵉ / 34	llm-stats	Auto-déclaré
SkillsBench	59,2 %	1ᵉ / 5	llm-stats	Auto-déclaré
NOVA-63	59,0 %	2ᵉ / 11	llm-stats	Auto-déclaré
SciCode	53,5 %	4ᵉ / 18	llm-stats	Auto-déclaré
Finance Agent v2	48,4 %	7ᵉ / 25	llm-stats	n.d.
VITA-Bench	47,9 %	2ᵉ / 10	llm-stats	Auto-déclaré
NL2Repo	47,2 %	2ᵉ / 11	llm-stats	Auto-déclaré
MathArena Apex	44,5 %	3ᵉ / 6	llm-stats	Auto-déclaré
GDPval-AA	43,6 %	12ᵉ / 33	llm-stats	n.d.
Humanity's Last Exam	41,4 %	26ᵉ / 86	llm-stats	Auto-déclaré
CritPT	11,4 %	2ᵉ / 4	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

▶ Qwen3.7 Max46.0

DeepSeek V4 Pro44.3

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

▶ Qwen3.7 Max66.0

DeepSeek V4 Pro59.4

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Code	1530	10ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
novita	1,25 $	3,75 $	n.d.
Alibaba Cloud Int.	1,25 $	3,75 $	0,25 $
together	2,5 $	7,5 $	n.d.
artificialanalysis	2,5 $	7,5 $	0,25 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	20,51 $
Durée d'exécution — PinchBench	3 h 20 min
Indice valeur/coût — PinchBench	4,81
Coût moyen par benchmark — Benchable	0,55 $
Latence moyenne par benchmark — Benchable	14 min 33 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	China

Notre analyse

Forces. Qwen3.7 Max se place dans le top 10 de l’Intelligence Index et du Code Index, ce qui signale un niveau élevé sur les tâches générales et la programmation. Son meilleur signal vient des évaluations de fiabilité et d’autonomie : Benchable Hallucinations lui attribue le meilleur résultat relevé sur le jeu de référence, et PinchBench OpenClaw le place en tête sur des tâches agentiques. Le modèle est aussi très solide sur GPQA diamond, qui mesure des questions scientifiques niveau doctorat, et sur OTIS Mock AIME 2024-2025, orienté olympiades de mathématiques niveau lycée. Sa grande fenêtre de contexte en fait un candidat adapté aux dossiers longs, aux bases documentaires volumineuses et aux workflows nécessitant beaucoup d’historique.

Limites et points d'attention. Les poids ne sont pas ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations internes hors cadre propriétaire. L’Agentic Index reste moins dominant que son résultat PinchBench, avec un classement hors top 10, et LiveBench Mathematics le situe derrière les tout premiers modèles sur les mathématiques générales. Le tarif reste un atout net : il est 36% inférieur à la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière. Qwen3.7 Max convient surtout aux usages exigeant un bon compromis entre raisonnement, code, contexte long, tâches agentiques et coût maîtrisé.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).