Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-Thinking-2507 est un LLM de Qwen publié le 25 juillet 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Il combine un très grand format, 235 milliards de paramètres, avec une fenêtre de contexte de 262 144 tokens et des connaissances arrêtées…

Qwen3-235B-A22B-Thinking-2507 est un LLM de Qwen publié le 25 juillet 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Il combine un très grand format, 235 milliards de paramètres, avec une fenêtre de contexte de 262 144 tokens et des connaissances arrêtées au 30 juin 2025.

Son positionnement le distingue par un coût d’usage très bas : sa tarification est indiquée comme 95% inférieure à la moyenne des LLM similaires et environ 48,3 fois moins chère que les modèles frontière. À sa sortie, il se situait dans le top 13% de sa génération sur GPQA.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie25 juillet 2025
Connaissances jusqu'à2025-06-30
Multimodalnon
Paramètres235 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)98,0 %4ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)98,0 %23ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)94,0 %126ᵉ / 229benchable✅ Mesuré
Benchable : Mathematics (Baseline)92,9 %86ᵉ / 217benchable✅ Mesuré
Benchable : Keyword Topic Relevance Classification90,0 %5ᵉ / 9benchable✅ Mesuré
LiveBench: Mathematics73,4 %52ᵉ / 76livebench✅ Mesuré
LiveBench: Language69,5 %46ᵉ / 76livebench✅ Mesuré
LiveBench: Coding69,0 %50ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning59,4 %51ᵉ / 76livebench✅ Mesuré
LiveBench: Global average53,0 %56ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis52,2 %47ᵉ / 76livebench✅ Mesuré
LiveBench: IF40,6 %51ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)26,3 %212ᵉ / 252benchable✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public20,0 %27ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private8,5 %40ᵉ / 69epoch✅ Mesuré
LiveBench: Agentic Coding6,7 %69ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private0,0 %47ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
MMLU-Redux93,8 %7ᵉ / 48llm-statsAuto-déclaré
AIME 202592,3 %32ᵉ / 108llm-statsAuto-déclaré
WritingBench88,3 %1ᵉ / 15llm-statsAuto-déclaré
IFEval87,8 %28ᵉ / 65llm-statsAuto-déclaré
Creative Writing v386,1 %3ᵉ / 12llm-statsAuto-déclaré
MMLU-Pro84,4 %24ᵉ / 125llm-statsAuto-déclaré
HMMT2583,9 %11ᵉ / 25llm-statsAuto-déclaré
GPQA81,1 %67ᵉ / 213llm-statsAuto-déclaré
Include81,0 %8ᵉ / 31llm-statsAuto-déclaré
MMLU-ProX81,0 %8ᵉ / 32llm-statsAuto-déclaré
Multi-IF80,6 %1ᵉ / 20llm-statsAuto-déclaré
Arena-Hard v279,7 %3ᵉ / 16llm-statsAuto-déclaré
LiveBench 2024112578,4 %2ᵉ / 14llm-statsAuto-déclaré
LiveCodeBench v674,1 %25ᵉ / 53llm-statsAuto-déclaré
BFCL-v371,9 %6ᵉ / 19llm-statsAuto-déclaré
Tau2 Retail71,9 %15ᵉ / 25llm-statsAuto-déclaré
TAU-bench Retail67,8 %15ᵉ / 24llm-statsAuto-déclaré
SuperGPQA64,9 %11ᵉ / 34llm-statsAuto-déclaré
PolyMATH60,1 %8ᵉ / 23llm-statsAuto-déclaré
Tau2 Airline58,0 %12ᵉ / 22llm-statsAuto-déclaré
TAU-bench Airline46,0 %15ᵉ / 22llm-statsAuto-déclaré
Tau2 Telecom45,6 %30ᵉ / 34llm-statsAuto-déclaré
OJBench32,5 %6ᵉ / 9llm-statsAuto-déclaré
Humanity's Last Exam18,2 %55ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

GPT-5100 %
▶ Qwen3-235B-A22B-Thinkin…100 %

Benchable : Email Classification (Baseline)

▶ Qwen3-235B-A22B-Thinkin…99 %
WizardLM-2 8x22B95 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1399120ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Weights & Biases0,1 $0,1 $0,1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,79 $
Latence moyenne par benchmark — Benchable40 min 45 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3-235B-A22B-Thinking-2507 affiche ses meilleurs résultats Benchable en General Knowledge, où il atteint le tout premier rang du panel, et en Coding, où il figure dans le top 10. Le modèle se montre aussi solide en Reasoning et en Email Classification, avec des scores élevés qui indiquent une bonne tenue sur des tâches de raisonnement général, de code et de tri d’informations. Sa très grande fenêtre de contexte constitue un atout concret pour traiter de longs documents ou conserver beaucoup d’éléments dans une même requête. La licence Apache 2.0 et les poids ouverts renforcent son intérêt pour des déploiements contrôlés, y compris commerciaux, tandis que son prix le place nettement dans la catégorie très économique.

Limites et points d'attention. Les résultats sont moins distinctifs sur Ethics et Hallucinations, où les classements Benchable le situent plutôt en milieu de tableau malgré des scores élevés. L’Arena text le place aussi loin des tout premiers rangs, ce qui nuance ses performances en préférence humaine face à d’autres modèles. Sa date de connaissance arrêtée au 30 juin 2025 impose une vigilance sur les sujets récents. Il convient surtout aux usages recherchant un grand contexte, de bons résultats en connaissances générales et en code, des poids ouverts et un coût d’inférence très bas.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).