Qwen

Qwen3 235B A22B

Qwen3 235B A22B est un LLM de Qwen, publié le 25 juillet 2025 sous licence Apache 2.0. Ses poids ouverts et son usage commercial autorisé en font un modèle positionné à la fois sur l’accessibilité technique et sur la réutilisation en production.

Le modèle compte 235 milliards de paramètres, avec une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 31 mars 2025. Son entraînement représente 4,8 × 10²⁴ FLOP, soit environ 1,3 million heures-GPU H100, l’équivalent d’environ 610 GPU H100 mobilisés pendant trois mois.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	25 juillet 2025
Connaissances jusqu'à	2025-03-31
Multimodal	non
Paramètres	235 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: OTIS Mock AIME 2024-2025	86,7 %	29ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	80,1 %	42ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	68,9 %	33ᵉ / 84	epoch	✅ Mesuré
Epoch: SimpleQA Verified	50,1 %	17ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	12,0 %	37ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
Arena Hard	95,6 %	1ᵉ / 26	llm-stats	Auto-déclaré
GSM8k	94,4 %	16ᵉ / 47	llm-stats	Auto-déclaré
BBH	88,9 %	1ᵉ / 12	llm-stats	Auto-déclaré
MMLU	87,8 %	18ᵉ / 98	llm-stats	Auto-déclaré
MMLU-Redux	87,4 %	31ᵉ / 48	llm-stats	Auto-déclaré
MMMLU	86,7 %	21ᵉ / 49	llm-stats	Auto-déclaré
AIME 2024	85,7 %	17ᵉ / 52	llm-stats	Auto-déclaré
MGSM	83,5 %	15ᵉ / 30	llm-stats	Auto-déclaré
AIME 2025	81,5 %	62ᵉ / 108	llm-stats	Auto-déclaré
MBPP	81,4 %	11ᵉ / 33	llm-stats	Auto-déclaré
EvalPlus	77,6 %	3ᵉ / 4	llm-stats	Auto-déclaré
LiveBench	77,1 %	7ᵉ / 38	llm-stats	Auto-déclaré
Include	73,5 %	19ᵉ / 31	llm-stats	Auto-déclaré
MATH	71,8 %	34ᵉ / 70	llm-stats	Auto-déclaré
BFCL	70,8 %	5ᵉ / 11	llm-stats	Auto-déclaré
LiveCodeBench	70,7 %	21ᵉ / 72	llm-stats	Auto-déclaré
MMLU-Pro	68,2 %	87ᵉ / 125	llm-stats	Auto-déclaré
MultiPL-E	65,9 %	11ᵉ / 13	llm-stats	Auto-déclaré
Aider	61,8 %	2ᵉ / 4	llm-stats	Auto-déclaré
GPQA	47,5 %	164ᵉ / 213	llm-stats	Auto-déclaré
SuperGPQA	44,1 %	31ᵉ / 34	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Muse Spark89 %

▶ Qwen3 235B A22B87 %

Mistral Medium…32 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Grok 4.3 Beta89 %

▶ Qwen3 235B A22B80 %

Mistral Medium…60 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1403	116ᵉ
Arena Text	1375	148ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,455 $	1,82 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 77 % en dessous de la moyenne des LLM similaires, et 10,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	4,8 × 10²⁴ FLOP
Taille du jeu d'entraînement	3,6 × 10¹³
Jeu de données	Unspecified unreleased
Pays	China

Notre analyse

Forces. Qwen3 235B A22B se distingue surtout par son rapport performance-prix : son tarif est très économique, 77% sous la moyenne des LLM similaires et environ 10,6 fois inférieur à celui des modèles frontière. À sa sortie, il figurait dans le top 8% de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat. Il obtient aussi de bons résultats sur OTIS Mock AIME 2024-2025, qui mesure des problèmes d’olympiades de mathématiques niveau lycée, ainsi que sur SimpleQA Verified, centré sur les questions factuelles vérifiables.

Limites et points d'attention. Les résultats sont plus faibles sur les tâches les plus spécialisées ou extrêmes : Chess Puzzles le place en bas de tableau, et FrontierMath ne montre pas de capacité mesurable sur des mathématiques de recherche très difficiles. Les classements Arena text indiquent aussi un positionnement moins dominant dans les préférences générales. La fenêtre longue constitue un atout d’usage, mais elle ne compense pas ces limites de raisonnement spécialisé. Profil d’usage : un LLM open-weights économique pour des déploiements commerciaux nécessitant un grand contexte, avec une vigilance sur les tâches d’échecs et de mathématiques avancées.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Qwen3 235B A22B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast