Qwen3.7-Plus

Qwen3.7-Plus est un LLM propriétaire de Qwen, sorti le 31 mai 2026, avec des poids non ouverts. Sa signature est une très grande fenêtre de contexte d’environ 1,0 M tokens, qui le place dans la catégorie des modèles conçus pour absorber de longs contenus en une seule requête.

Qwen3.7-Plus est un LLM propriétaire de Qwen, sorti le 31 mai 2026, avec des poids non ouverts. Sa signature est une très grande fenêtre de contexte d’environ 1,0 M tokens, qui le place dans la catégorie des modèles conçus pour absorber de longs contenus en une seule requête.

Son positionnement combine performances de haut de panier à sa génération et coût très agressif. À sa sortie, Qwen3.7-Plus figurait dans le top 9% sur GPQA parmi les LLM de la même période, tout en affichant une tarification très économique, nettement inférieure à celle des modèles similaires et des modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceProprietary (poids non ouverts)
Date de sortie31 mai 2026
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index39.027ᵉ / 136
Code Index55.921ᵉ / 50
Agentic Index20.828ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)79,8 %51ᵉ / 252benchable✅ Mesuré
IFEval94,6 %2ᵉ / 65llm-statsAuto-déclaré
MMLU-Redux94,5 %3ᵉ / 48llm-statsAuto-déclaré
HMMT Feb 2692,9 %4ᵉ / 11llm-statsAuto-déclaré
MRCR v291,7 %1ᵉ / 8llm-statsAuto-déclaré
OmniDocBench 1.591,4 %2ᵉ / 13llm-statsAuto-déclaré
Global PIQA90,3 %4ᵉ / 13llm-statsAuto-déclaré
GPQA90,3 %16ᵉ / 213llm-statsAuto-déclaré
MathVision90,3 %4ᵉ / 31llm-statsAuto-déclaré
LiveCodeBench v689,6 %2ᵉ / 53llm-statsAuto-déclaré
MMMLU89,0 %14ᵉ / 49llm-statsAuto-déclaré
MAXIFE88,8 %2ᵉ / 11llm-statsAuto-déclaré
MMLU-Pro88,5 %2ᵉ / 125llm-statsAuto-déclaré
Video-MME88,0 %3ᵉ / 17llm-statsAuto-déclaré
MLVU87,4 %1ᵉ / 10llm-statsAuto-déclaré
RealWorldQA86,9 %1ᵉ / 25llm-statsAuto-déclaré
SpreadSheetBench-v186,3 %3ᵉ / 3llm-statsAuto-déclaré
IMO-AnswerBench86,0 %6ᵉ / 18llm-statsAuto-déclaré
CharXiv-R85,9 %7ᵉ / 42llm-statsAuto-déclaré
MMLU-ProX85,4 %2ᵉ / 32llm-statsAuto-déclaré
VideoMMMU85,4 %5ᵉ / 26llm-statsAuto-déclaré
WMT24++84,6 %4ᵉ / 23llm-statsAuto-déclaré
PolyMATH84,0 %2ᵉ / 23llm-statsAuto-déclaré
LingoQA83,4 %1ᵉ / 4llm-statsAuto-déclaré
Include83,0 %5ᵉ / 31llm-statsAuto-déclaré
SimpleVQA81,7 %1ᵉ / 13llm-statsAuto-déclaré
AndroidWorld81,0 %1ᵉ / 3llm-statsAuto-déclaré
IFBench79,1 %4ᵉ / 27llm-statsAuto-déclaré
MMMU-Pro79,0 %12ᵉ / 60llm-statsAuto-déclaré
ScreenSpot Pro79,0 %4ᵉ / 23llm-statsAuto-déclaré
TVBench78,2 %2ᵉ / 3llm-statsAuto-déclaré
SWE-Bench Verified77,7 %21ᵉ / 100llm-statsAuto-déclaré
LVBench76,2 %3ᵉ / 23llm-statsAuto-déclaré
SWE-bench Multilingual75,8 %8ᵉ / 32llm-statsAuto-déclaré
OSWorld-Verified73,3 %8ᵉ / 17llm-statsAuto-déclaré
MCP Atlas73,2 %13ᵉ / 27llm-statsAuto-déclaré
BFCL-V472,9 %2ᵉ / 13llm-statsAuto-déclaré
SuperGPQA71,4 %3ᵉ / 34llm-statsAuto-déclaré
BabyVision70,4 %2ᵉ / 7llm-statsAuto-déclaré
Terminal-Bench 2.070,3 %7ᵉ / 48llm-statsAuto-déclaré
ERQA69,8 %3ᵉ / 22llm-statsAuto-déclaré
OCRBench_V267,1 %1ᵉ / 7llm-statsAuto-déclaré
Claw-Eval62,7 %7ᵉ / 12llm-statsAuto-déclaré
DeepPlanning62,3 %1ᵉ / 9llm-statsAuto-déclaré
WorldVQA61,1 %1ᵉ / 4llm-statsAuto-déclaré
NOVA-6358,8 %3ᵉ / 11llm-statsAuto-déclaré
MCP-Mark58,7 %3ᵉ / 8llm-statsAuto-déclaré
SWE-Bench Pro57,6 %12ᵉ / 34llm-statsAuto-déclaré
ClawEval-MM55,7 %1ᵉ / 3llm-statsAuto-déclaré
SkillsBench54,9 %2ᵉ / 5llm-statsAuto-déclaré
SciCode51,3 %6ᵉ / 18llm-statsAuto-déclaré
ODinW51,1 %2ᵉ / 16llm-statsAuto-déclaré
VITA-Bench45,6 %3ᵉ / 10llm-statsAuto-déclaré
VisFactor42,8 %3ᵉ / 3llm-statsAuto-déclaré
NL2Repo41,1 %7ᵉ / 11llm-statsAuto-déclaré
Finance Agent v238,2 %16ᵉ / 25llm-statsn.d.
Humanity's Last Exam34,7 %35ᵉ / 86llm-statsAuto-déclaré
GDPval-AA31,5 %30ᵉ / 33llm-statsn.d.
CritPT6,0 %3ᵉ / 4llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Grok Build 0.1 061639.8
▶ Qwen3.7-Plus39.0
Nemotron 3 Ultra 550B A…37.8

Code Index

▶ Qwen3.7-Plus55.9
Grok Build 0.1 061651.5

Classements Arena (Elo)

CatégorieEloRang
Arena Text146432ᵉ
Arena Vision126619ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
together0,32 $1,28 $n.d.
Alibaba Cloud Int.0,32 $1,28 $0,064 $
artificialanalysis0,4 $1,16 $0,08 $

Prix en dollars US par million de tokens.

Sa tarification se situe 84 % en dessous de la moyenne des LLM similaires, et 15,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,13 $
Latence moyenne par benchmark — Benchable23 min 56 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3.7-Plus se distingue d’abord par son rapport performance-prix : son tarif est 84% sous la moyenne des LLM similaires et environ 15,1 fois inférieur à celui des modèles frontière. Les résultats disponibles le placent dans une zone solide en raisonnement général, avec un Intelligence Index dans le haut du classement et un positionnement de génération fort sur GPQA. Le Code Index est également compétitif, signe d’un modèle crédible pour les tâches de programmation courantes. Sur Benchable, Email Classification (classification d’e-mails) fait partie de ses meilleurs signaux, et Instruction Following (respect des consignes) reste bien placé. Les classements Arena text et Arena vision indiquent aussi une réception favorable en comparaison directe.

Limites et points d'attention. Le modèle reste propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant et l’hébergement autonome. Son Agentic Index est moins convaincant que ses scores de raisonnement ou de code, ce qui invite à la prudence pour les chaînes d’actions longues, les agents outillés et les workflows nécessitant une forte autonomie. Le benchmark Hallucinations (résistance aux réponses inventées) affiche un score élevé mais un rang seulement médian dans un marché très dense, ce qui en fait un point à surveiller pour les usages factuels. Qwen3.7-Plus apparaît surtout pertinent pour des volumes importants de texte, du tri, de la génération encadrée, du code courant et des cas sensibles au coût.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).