Qwen

Qwen3-235B-A22B-Instruct-2507

Qwen3-235B-A22B-Instruct-2507 est un LLM de Qwen publié le 22 juillet 2025, diffusé en open-weights sous licence Apache 2.0 avec usage commercial autorisé. Le modèle combine une taille totale de 235 milliards de paramètres avec 22 milliards de paramètres actifs, et s’appuie sur des…

Son positionnement se distingue surtout par une très grande fenêtre de contexte de 262 144 tokens et par un tarif très économique, annoncé 95% sous la moyenne des LLM similaires et environ 53.7 fois inférieur aux modèles frontière. Les données disponibles reposent sur 5 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	22 juillet 2025
Connaissances jusqu'à	2025-06-30
Multimodal	non
Paramètres	235 milliards
Paramètres actifs	22 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	18.2	106ᵉ / 136
Math Index	71.7	20ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
LiveBench: Coding	69,6 %	47ᵉ / 76	livebench	✅ Mesuré
LiveBench: Mathematics	68,0 %	59ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	66,1 %	52ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	58,4 %	53ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	48,8 %	61ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	44,7 %	66ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	21,7 %	68ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	13,3 %	66ᵉ / 76	livebench	✅ Mesuré
ZebraLogic	95,0 %	3ᵉ / 7	llm-stats	Auto-déclaré
MMLU-Redux	93,1 %	14ᵉ / 48	llm-stats	Auto-déclaré
IFEval	88,7 %	24ᵉ / 65	llm-stats	Auto-déclaré
MultiPL-E	87,9 %	1ᵉ / 13	llm-stats	Auto-déclaré
Creative Writing v3	87,5 %	1ᵉ / 12	llm-stats	Auto-déclaré
WritingBench	85,2 %	7ᵉ / 15	llm-stats	Auto-déclaré
CSimpleQA	84,3 %	2ᵉ / 7	llm-stats	Auto-déclaré
MMLU-Pro	83,0 %	30ᵉ / 125	llm-stats	Auto-déclaré
Include	79,5 %	12ᵉ / 31	llm-stats	Auto-déclaré
MMLU-ProX	79,4 %	11ᵉ / 32	llm-stats	Auto-déclaré
Arena-Hard v2	79,2 %	4ᵉ / 16	llm-stats	Auto-déclaré
GPQA	77,5 %	83ᵉ / 213	llm-stats	Auto-déclaré
Multi-IF	77,5 %	6ᵉ / 20	llm-stats	Auto-déclaré
LiveBench 20241125	75,4 %	5ᵉ / 14	llm-stats	Auto-déclaré
Tau2 Retail	71,3 %	17ᵉ / 25	llm-stats	Auto-déclaré
BFCL-v3	70,9 %	9ᵉ / 19	llm-stats	Auto-déclaré
AIME 2025	70,3 %	83ᵉ / 108	llm-stats	Auto-déclaré
SuperGPQA	62,6 %	15ᵉ / 34	llm-stats	Auto-déclaré
Aider-Polyglot	57,3 %	14ᵉ / 22	llm-stats	Auto-déclaré
HMMT25	55,4 %	20ᵉ / 25	llm-stats	Auto-déclaré
SimpleQA	54,3 %	11ᵉ / 45	llm-stats	Auto-déclaré
LiveCodeBench v6	51,8 %	45ᵉ / 53	llm-stats	Auto-déclaré
PolyMATH	50,2 %	14ᵉ / 23	llm-stats	Auto-déclaré
Tau2 Airline	44,0 %	22ᵉ / 22	llm-stats	Auto-déclaré
ARC-AGI	41,8 %	7ᵉ / 7	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ Qwen3-235B-A22B-Instruc…18.2

Llama 4 Maverick14.3

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Claude Haiku 4.583.7

▶ Qwen3-235B-A22B-Instruc…71.7

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1423	85ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,09 $	0,1 $	n.d.
artificialanalysis	0,2 $	0,825 $	0,2 $
artificialanalysis	0,4 $	2,15 $	0,4 $

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 53,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Qwen3-235B-A22B-Instruct-2507 ressort d’abord par son rapport coût-capacité : ses prix d’entrée et de sortie le placent dans une catégorie nettement moins chère que les modèles haut de gamme, tout en conservant une licence permissive pour des usages commerciaux. Son meilleur signal comparatif vient des mathématiques, avec un Math Index situé dans la partie haute du panel mesuré et des résultats LiveBench: Mathematics solides. Le modèle reste aussi compétitif en programmation dans LiveBench: Coding (programmation), qui fait partie de ses mesures les plus favorables. À sa sortie, il se situait dans le top 19% des LLM de sa génération sur GPQA, ce qui indique un positionnement initial crédible sur les tâches d’évaluation exigeantes.

Limites et points d'attention. L’Intelligence Index place Qwen3-235B-A22B-Instruct-2507 loin des meilleurs modèles du panel, malgré sa grande taille totale. LiveBench: Global average le situe plutôt en milieu inférieur de classement, avec un point faible net en LiveBench: Data Analysis (analyse de données). Les scores LiveBench: Language (compréhension du langage) et LiveBench: Reasoning (raisonnement) restent corrects mais sans signal de domination. Arena text le classe également dans une zone intermédiaire, ce qui limite son intérêt pour les usages où la préférence humaine en conversation longue ou en rédaction est centrale. Le modèle convient surtout aux déploiements sensibles au coût, aux contextes longs et aux contraintes de licence ouverte, lorsque les performances maximales ne sont pas le critère principal.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai).

Qwen3-235B-A22B-Instruct-2507

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast