Qwen3 235B A22B

Qwen3 235B A22B est un LLM de Qwen, publié le 25 juillet 2025 sous licence Apache 2.0. Ses poids ouverts et son usage commercial autorisé en font un modèle positionné à la fois sur l’accessibilité technique et sur la réutilisation en production.

Qwen3 235B A22B est un LLM de Qwen, publié le 25 juillet 2025 sous licence Apache 2.0. Ses poids ouverts et son usage commercial autorisé en font un modèle positionné à la fois sur l’accessibilité technique et sur la réutilisation en production.

Le modèle compte 235 milliards de paramètres, avec une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 31 mars 2025. Son entraînement représente 4,8 × 10²⁴ FLOP, soit environ 1,3 million heures-GPU H100, l’équivalent d’environ 610 GPU H100 mobilisés pendant trois mois.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie25 juillet 2025
Connaissances jusqu'à2025-03-31
Multimodalnon
Paramètres235 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: OTIS Mock AIME 2024-202586,7 %29ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond80,1 %42ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 568,9 %33ᵉ / 84epoch✅ Mesuré
Epoch: SimpleQA Verified50,1 %17ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles12,0 %37ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
Arena Hard95,6 %1ᵉ / 26llm-statsAuto-déclaré
GSM8k94,4 %16ᵉ / 47llm-statsAuto-déclaré
BBH88,9 %1ᵉ / 12llm-statsAuto-déclaré
MMLU87,8 %18ᵉ / 98llm-statsAuto-déclaré
MMLU-Redux87,4 %31ᵉ / 48llm-statsAuto-déclaré
MMMLU86,7 %21ᵉ / 49llm-statsAuto-déclaré
AIME 202485,7 %17ᵉ / 52llm-statsAuto-déclaré
MGSM83,5 %15ᵉ / 30llm-statsAuto-déclaré
AIME 202581,5 %62ᵉ / 108llm-statsAuto-déclaré
MBPP81,4 %11ᵉ / 33llm-statsAuto-déclaré
EvalPlus77,6 %3ᵉ / 4llm-statsAuto-déclaré
LiveBench77,1 %7ᵉ / 38llm-statsAuto-déclaré
Include73,5 %19ᵉ / 31llm-statsAuto-déclaré
MATH71,8 %34ᵉ / 70llm-statsAuto-déclaré
BFCL70,8 %5ᵉ / 11llm-statsAuto-déclaré
LiveCodeBench70,7 %21ᵉ / 72llm-statsAuto-déclaré
MMLU-Pro68,2 %87ᵉ / 125llm-statsAuto-déclaré
MultiPL-E65,9 %11ᵉ / 13llm-statsAuto-déclaré
Aider61,8 %2ᵉ / 4llm-statsAuto-déclaré
GPQA47,5 %164ᵉ / 213llm-statsAuto-déclaré
SuperGPQA44,1 %31ᵉ / 34llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
▶ Qwen3 235B A22B87 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
▶ Qwen3 235B A22B80 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1403116ᵉ
Arena Text1375148ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,455 $1,82 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 77 % en dessous de la moyenne des LLM similaires, et 10,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement4,8 × 10²⁴ FLOP
Taille du jeu d'entraînement3,6 × 10¹³
Jeu de donnéesUnspecified unreleased
PaysChina

Notre analyse

Forces. Qwen3 235B A22B se distingue surtout par son rapport performance-prix : son tarif est très économique, 77% sous la moyenne des LLM similaires et environ 10,6 fois inférieur à celui des modèles frontière. À sa sortie, il figurait dans le top 8% de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat. Il obtient aussi de bons résultats sur OTIS Mock AIME 2024-2025, qui mesure des problèmes d’olympiades de mathématiques niveau lycée, ainsi que sur SimpleQA Verified, centré sur les questions factuelles vérifiables.

Limites et points d'attention. Les résultats sont plus faibles sur les tâches les plus spécialisées ou extrêmes : Chess Puzzles le place en bas de tableau, et FrontierMath ne montre pas de capacité mesurable sur des mathématiques de recherche très difficiles. Les classements Arena text indiquent aussi un positionnement moins dominant dans les préférences générales. La fenêtre longue constitue un atout d’usage, mais elle ne compense pas ces limites de raisonnement spécialisé. Profil d’usage : un LLM open-weights économique pour des déploiements commerciaux nécessitant un grand contexte, avec une vigilance sur les tâches d’échecs et de mathématiques avancées.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.