Qwen

Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-Thinking-2507 est un LLM de Qwen publié le 25 juillet 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Il combine un très grand format, 235 milliards de paramètres, avec une fenêtre de contexte de 262 144 tokens et des connaissances arrêtées…

Son positionnement le distingue par un coût d’usage très bas : sa tarification est indiquée comme 95% inférieure à la moyenne des LLM similaires et environ 48,3 fois moins chère que les modèles frontière. À sa sortie, il se situait dans le top 13% de sa génération sur GPQA.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	25 juillet 2025
Connaissances jusqu'à	2025-06-30
Multimodal	non
Paramètres	235 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	98,0 %	4ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	94,0 %	126ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	92,9 %	86ᵉ / 217	benchable	✅ Mesuré
Benchable : Keyword Topic Relevance Classification	90,0 %	5ᵉ / 9	benchable	✅ Mesuré
LiveBench: Mathematics	73,4 %	52ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	69,5 %	46ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	69,0 %	50ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	59,4 %	51ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	53,0 %	56ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	52,2 %	47ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	40,6 %	51ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	26,3 %	212ᵉ / 252	benchable	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	20,0 %	27ᵉ / 64	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	8,5 %	40ᵉ / 69	epoch	✅ Mesuré
LiveBench: Agentic Coding	6,7 %	69ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	0,0 %	47ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
MMLU-Redux	93,8 %	7ᵉ / 48	llm-stats	Auto-déclaré
AIME 2025	92,3 %	32ᵉ / 108	llm-stats	Auto-déclaré
WritingBench	88,3 %	1ᵉ / 15	llm-stats	Auto-déclaré
IFEval	87,8 %	28ᵉ / 65	llm-stats	Auto-déclaré
Creative Writing v3	86,1 %	3ᵉ / 12	llm-stats	Auto-déclaré
MMLU-Pro	84,4 %	24ᵉ / 125	llm-stats	Auto-déclaré
HMMT25	83,9 %	11ᵉ / 25	llm-stats	Auto-déclaré
GPQA	81,1 %	67ᵉ / 213	llm-stats	Auto-déclaré
Include	81,0 %	8ᵉ / 31	llm-stats	Auto-déclaré
MMLU-ProX	81,0 %	8ᵉ / 32	llm-stats	Auto-déclaré
Multi-IF	80,6 %	1ᵉ / 20	llm-stats	Auto-déclaré
Arena-Hard v2	79,7 %	3ᵉ / 16	llm-stats	Auto-déclaré
LiveBench 20241125	78,4 %	2ᵉ / 14	llm-stats	Auto-déclaré
LiveCodeBench v6	74,1 %	25ᵉ / 53	llm-stats	Auto-déclaré
BFCL-v3	71,9 %	6ᵉ / 19	llm-stats	Auto-déclaré
Tau2 Retail	71,9 %	15ᵉ / 25	llm-stats	Auto-déclaré
TAU-bench Retail	67,8 %	15ᵉ / 24	llm-stats	Auto-déclaré
SuperGPQA	64,9 %	11ᵉ / 34	llm-stats	Auto-déclaré
PolyMATH	60,1 %	8ᵉ / 23	llm-stats	Auto-déclaré
Tau2 Airline	58,0 %	12ᵉ / 22	llm-stats	Auto-déclaré
TAU-bench Airline	46,0 %	15ᵉ / 22	llm-stats	Auto-déclaré
Tau2 Telecom	45,6 %	30ᵉ / 34	llm-stats	Auto-déclaré
OJBench	32,5 %	6ᵉ / 9	llm-stats	Auto-déclaré
Humanity's Last Exam	18,2 %	55ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ Qwen3-235B-A22B-Thinkin…100 %

DeepSeek R1 Distill Lla…100 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Qwen3-235B-A22B-Thinkin…99 %

WizardLM-2 8x22B95 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1399	120ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Weights & Biases	0,1 $	0,1 $	0,1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,79 $
Latence moyenne par benchmark — Benchable	40 min 45 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen3-235B-A22B-Thinking-2507 affiche ses meilleurs résultats Benchable en General Knowledge, où il atteint le tout premier rang du panel, et en Coding, où il figure dans le top 10. Le modèle se montre aussi solide en Reasoning et en Email Classification, avec des scores élevés qui indiquent une bonne tenue sur des tâches de raisonnement général, de code et de tri d’informations. Sa très grande fenêtre de contexte constitue un atout concret pour traiter de longs documents ou conserver beaucoup d’éléments dans une même requête. La licence Apache 2.0 et les poids ouverts renforcent son intérêt pour des déploiements contrôlés, y compris commerciaux, tandis que son prix le place nettement dans la catégorie très économique.

Limites et points d'attention. Les résultats sont moins distinctifs sur Ethics et Hallucinations, où les classements Benchable le situent plutôt en milieu de tableau malgré des scores élevés. L’Arena text le place aussi loin des tout premiers rangs, ce qui nuance ses performances en préférence humaine face à d’autres modèles. Sa date de connaissance arrêtée au 30 juin 2025 impose une vigilance sur les sujets récents. Il convient surtout aux usages recherchant un grand contexte, de bons résultats en connaissances générales et en code, des poids ouverts et un coût d’inférence très bas.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Qwen3-235B-A22B-Thinking-2507

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast