Qwen3.7 Max

Qwen3.7 Max est un LLM propriétaire de Qwen, originaire de Chine, sorti le 19 mai 2026. Son positionnement combine une fenêtre de contexte de 1 000 000 tokens, des poids non ouverts et un tarif économique, avec une entrée à 1,25 $ par million de tokens et une sortie à 3,75 $ par million.

Qwen3.7 Max est un LLM propriétaire de Qwen, originaire de Chine, sorti le 19 mai 2026. Son positionnement combine une fenêtre de contexte de 1 000 000 tokens, des poids non ouverts et un tarif économique, avec une entrée à 1,25 $ par million de tokens et une sortie à 3,75 $ par million.

Le modèle se distingue par un profil très compétitif en raisonnement, en code et en tâches agentiques. À sa sortie, il figurait dans le top 11% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat, avec 8 sources de données concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceProprietary (poids non ouverts)
Date de sortie19 mai 2026
Multimodalnon
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index46.07ᵉ / 136
Code Index66.08ᵉ / 50
Agentic Index30.612ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202595,0 %13ᵉ / 111epoch✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)92,5 %1ᵉ / 52pinchbench✅ Mesuré
Epoch: GPQA diamond91,6 %9ᵉ / 132epoch✅ Mesuré
LiveBench: Mathematics85,2 %19ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)85,0 %27ᵉ / 252benchable✅ Mesuré
LiveBench: Reasoning83,3 %10ᵉ / 76livebench✅ Mesuré
LiveBench: Language79,7 %13ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified77,3 %7ᵉ / 32epoch✅ Mesuré
LiveBench: Global average74,3 %13ᵉ / 76livebench✅ Mesuré
LiveBench: Coding74,2 %27ᵉ / 76livebench✅ Mesuré
LiveBench: IF74,0 %4ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis71,8 %15ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private64,6 %11ᵉ / 31epoch✅ Mesuré
Epoch: SimpleQA Verified58,5 %10ᵉ / 52epoch✅ Mesuré
LiveBench: Agentic Coding51,7 %24ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private34,1 %9ᵉ / 32epoch✅ Mesuré
Epoch: Chess Puzzles22,0 %20ᵉ / 43epoch✅ Mesuré
HMMT Feb 2697,1 %1ᵉ / 11llm-statsAuto-déclaré
MMLU-Redux95,0 %1ᵉ / 48llm-statsAuto-déclaré
IFEval94,3 %3ᵉ / 65llm-statsAuto-déclaré
GPQA92,4 %8ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench v691,6 %1ᵉ / 53llm-statsAuto-déclaré
Global PIQA91,4 %3ᵉ / 13llm-statsAuto-déclaré
MMMLU90,3 %8ᵉ / 49llm-statsAuto-déclaré
IMO-AnswerBench90,0 %3ᵉ / 18llm-statsAuto-déclaré
MMLU-Pro89,6 %1ᵉ / 125llm-statsAuto-déclaré
MAXIFE89,2 %1ᵉ / 11llm-statsAuto-déclaré
MMLU-ProX87,0 %1ᵉ / 32llm-statsAuto-déclaré
SpreadSheetBench-v187,0 %2ᵉ / 3llm-statsAuto-déclaré
PolyMATH86,5 %1ᵉ / 23llm-statsAuto-déclaré
Include86,2 %2ᵉ / 31llm-statsAuto-déclaré
WMT24++85,8 %3ᵉ / 23llm-statsAuto-déclaré
SWE-Bench Verified80,4 %10ᵉ / 100llm-statsAuto-déclaré
IFBench79,1 %4ᵉ / 27llm-statsAuto-déclaré
SWE-bench Multilingual78,3 %3ᵉ / 32llm-statsAuto-déclaré
MCP Atlas76,4 %7ᵉ / 27llm-statsAuto-déclaré
BFCL-V475,0 %1ᵉ / 13llm-statsAuto-déclaré
LiveBench74,3 %19ᵉ / 38llm-statsn.d.
SuperGPQA73,6 %1ᵉ / 34llm-statsAuto-déclaré
Terminal-Bench 2.069,7 %8ᵉ / 48llm-statsAuto-déclaré
Claw-Eval65,2 %4ᵉ / 12llm-statsAuto-déclaré
ZClawBench64,3 %1ᵉ / 4llm-statsAuto-déclaré
MCP-Mark60,8 %2ᵉ / 8llm-statsAuto-déclaré
SWE-Bench Pro60,6 %6ᵉ / 34llm-statsAuto-déclaré
SkillsBench59,2 %1ᵉ / 5llm-statsAuto-déclaré
NOVA-6359,0 %2ᵉ / 11llm-statsAuto-déclaré
SciCode53,5 %4ᵉ / 18llm-statsAuto-déclaré
Finance Agent v248,4 %7ᵉ / 25llm-statsn.d.
VITA-Bench47,9 %2ᵉ / 10llm-statsAuto-déclaré
NL2Repo47,2 %2ᵉ / 11llm-statsAuto-déclaré
MathArena Apex44,5 %3ᵉ / 6llm-statsAuto-déclaré
GDPval-AA43,6 %12ᵉ / 33llm-statsn.d.
Humanity's Last Exam41,4 %26ᵉ / 86llm-statsAuto-déclaré
CritPT11,4 %2ᵉ / 4llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ Qwen3.7 Max46.0

Code Index

▶ Qwen3.7 Max66.0

Classements Arena (Elo)

CatégorieEloRang
Arena Code153010ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
novita1,25 $3,75 $n.d.
Alibaba Cloud Int.1,25 $3,75 $0,25 $
together2,5 $7,5 $n.d.
artificialanalysis2,5 $7,5 $0,25 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)20,51 $
Durée d'exécution — PinchBench3 h 20 min
Indice valeur/coût — PinchBench4,81
Coût moyen par benchmark — Benchable0,55 $
Latence moyenne par benchmark — Benchable14 min 33 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysChina

Notre analyse

Forces. Qwen3.7 Max se place dans le top 10 de l’Intelligence Index et du Code Index, ce qui signale un niveau élevé sur les tâches générales et la programmation. Son meilleur signal vient des évaluations de fiabilité et d’autonomie : Benchable Hallucinations lui attribue le meilleur résultat relevé sur le jeu de référence, et PinchBench OpenClaw le place en tête sur des tâches agentiques. Le modèle est aussi très solide sur GPQA diamond, qui mesure des questions scientifiques niveau doctorat, et sur OTIS Mock AIME 2024-2025, orienté olympiades de mathématiques niveau lycée. Sa grande fenêtre de contexte en fait un candidat adapté aux dossiers longs, aux bases documentaires volumineuses et aux workflows nécessitant beaucoup d’historique.

Limites et points d'attention. Les poids ne sont pas ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations internes hors cadre propriétaire. L’Agentic Index reste moins dominant que son résultat PinchBench, avec un classement hors top 10, et LiveBench Mathematics le situe derrière les tout premiers modèles sur les mathématiques générales. Le tarif reste un atout net : il est 36% inférieur à la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière. Qwen3.7 Max convient surtout aux usages exigeant un bon compromis entre raisonnement, code, contexte long, tâches agentiques et coût maîtrisé.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).