Qwen3.7 Max
Qwen3.7 Max est un LLM propriétaire de Qwen, originaire de Chine, sorti le 19 mai 2026. Son positionnement combine une fenêtre de contexte de 1 000 000 tokens, des poids non ouverts et un tarif économique, avec une entrée à 1,25 $ par million de tokens et une sortie à 3,75 $ par million.
Qwen3.7 Max est un LLM propriétaire de Qwen, originaire de Chine, sorti le 19 mai 2026. Son positionnement combine une fenêtre de contexte de 1 000 000 tokens, des poids non ouverts et un tarif économique, avec une entrée à 1,25 $ par million de tokens et une sortie à 3,75 $ par million.
Le modèle se distingue par un profil très compétitif en raisonnement, en code et en tâches agentiques. À sa sortie, il figurait dans le top 11% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat, avec 8 sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 19 mai 2026 |
| Multimodal | non |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 46.0 | 7ᵉ / 136 |
| Code Index | 66.0 | 8ᵉ / 50 |
| Agentic Index | 30.6 | 12ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 95,0 % | 13ᵉ / 111 | epoch | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 92,5 % | 1ᵉ / 52 | pinchbench | ✅ Mesuré |
| Epoch: GPQA diamond | 91,6 % | 9ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 85,2 % | 19ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 85,0 % | 27ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Reasoning | 83,3 % | 10ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 79,7 % | 13ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 77,3 % | 7ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Global average | 74,3 % | 13ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 74,2 % | 27ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 74,0 % | 4ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 71,8 % | 15ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 64,6 % | 11ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 58,5 % | 10ᵉ / 52 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 51,7 % | 24ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 34,1 % | 9ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 22,0 % | 20ᵉ / 43 | epoch | ✅ Mesuré |
| HMMT Feb 26 | 97,1 % | 1ᵉ / 11 | llm-stats | Auto-déclaré |
| MMLU-Redux | 95,0 % | 1ᵉ / 48 | llm-stats | Auto-déclaré |
| IFEval | 94,3 % | 3ᵉ / 65 | llm-stats | Auto-déclaré |
| GPQA | 92,4 % | 8ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 91,6 % | 1ᵉ / 53 | llm-stats | Auto-déclaré |
| Global PIQA | 91,4 % | 3ᵉ / 13 | llm-stats | Auto-déclaré |
| MMMLU | 90,3 % | 8ᵉ / 49 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 90,0 % | 3ᵉ / 18 | llm-stats | Auto-déclaré |
| MMLU-Pro | 89,6 % | 1ᵉ / 125 | llm-stats | Auto-déclaré |
| MAXIFE | 89,2 % | 1ᵉ / 11 | llm-stats | Auto-déclaré |
| MMLU-ProX | 87,0 % | 1ᵉ / 32 | llm-stats | Auto-déclaré |
| SpreadSheetBench-v1 | 87,0 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| PolyMATH | 86,5 % | 1ᵉ / 23 | llm-stats | Auto-déclaré |
| Include | 86,2 % | 2ᵉ / 31 | llm-stats | Auto-déclaré |
| WMT24++ | 85,8 % | 3ᵉ / 23 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 80,4 % | 10ᵉ / 100 | llm-stats | Auto-déclaré |
| IFBench | 79,1 % | 4ᵉ / 27 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 78,3 % | 3ᵉ / 32 | llm-stats | Auto-déclaré |
| MCP Atlas | 76,4 % | 7ᵉ / 27 | llm-stats | Auto-déclaré |
| BFCL-V4 | 75,0 % | 1ᵉ / 13 | llm-stats | Auto-déclaré |
| LiveBench | 74,3 % | 19ᵉ / 38 | llm-stats | n.d. |
| SuperGPQA | 73,6 % | 1ᵉ / 34 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 69,7 % | 8ᵉ / 48 | llm-stats | Auto-déclaré |
| Claw-Eval | 65,2 % | 4ᵉ / 12 | llm-stats | Auto-déclaré |
| ZClawBench | 64,3 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| MCP-Mark | 60,8 % | 2ᵉ / 8 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 60,6 % | 6ᵉ / 34 | llm-stats | Auto-déclaré |
| SkillsBench | 59,2 % | 1ᵉ / 5 | llm-stats | Auto-déclaré |
| NOVA-63 | 59,0 % | 2ᵉ / 11 | llm-stats | Auto-déclaré |
| SciCode | 53,5 % | 4ᵉ / 18 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 48,4 % | 7ᵉ / 25 | llm-stats | n.d. |
| VITA-Bench | 47,9 % | 2ᵉ / 10 | llm-stats | Auto-déclaré |
| NL2Repo | 47,2 % | 2ᵉ / 11 | llm-stats | Auto-déclaré |
| MathArena Apex | 44,5 % | 3ᵉ / 6 | llm-stats | Auto-déclaré |
| GDPval-AA | 43,6 % | 12ᵉ / 33 | llm-stats | n.d. |
| Humanity's Last Exam | 41,4 % | 26ᵉ / 86 | llm-stats | Auto-déclaré |
| CritPT | 11,4 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1530 | 10ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| novita | 1,25 $ | 3,75 $ | n.d. |
| Alibaba Cloud Int. | 1,25 $ | 3,75 $ | 0,25 $ |
| together | 2,5 $ | 7,5 $ | n.d. |
| artificialanalysis | 2,5 $ | 7,5 $ | 0,25 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 20,51 $ |
| Durée d'exécution — PinchBench | 3 h 20 min |
| Indice valeur/coût — PinchBench | 4,81 |
| Coût moyen par benchmark — Benchable | 0,55 $ |
| Latence moyenne par benchmark — Benchable | 14 min 33 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | China |
Notre analyse
Forces. Qwen3.7 Max se place dans le top 10 de l’Intelligence Index et du Code Index, ce qui signale un niveau élevé sur les tâches générales et la programmation. Son meilleur signal vient des évaluations de fiabilité et d’autonomie : Benchable Hallucinations lui attribue le meilleur résultat relevé sur le jeu de référence, et PinchBench OpenClaw le place en tête sur des tâches agentiques. Le modèle est aussi très solide sur GPQA diamond, qui mesure des questions scientifiques niveau doctorat, et sur OTIS Mock AIME 2024-2025, orienté olympiades de mathématiques niveau lycée. Sa grande fenêtre de contexte en fait un candidat adapté aux dossiers longs, aux bases documentaires volumineuses et aux workflows nécessitant beaucoup d’historique.
Limites et points d'attention. Les poids ne sont pas ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations internes hors cadre propriétaire. L’Agentic Index reste moins dominant que son résultat PinchBench, avec un classement hors top 10, et LiveBench Mathematics le situe derrière les tout premiers modèles sur les mathématiques générales. Le tarif reste un atout net : il est 36% inférieur à la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière. Qwen3.7 Max convient surtout aux usages exigeant un bon compromis entre raisonnement, code, contexte long, tâches agentiques et coût maîtrisé.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).