Qwen3 235B A22B
Qwen3 235B A22B est un LLM de Qwen, publié le 25 juillet 2025 sous licence Apache 2.0. Ses poids ouverts et son usage commercial autorisé en font un modèle positionné à la fois sur l’accessibilité technique et sur la réutilisation en production.
Qwen3 235B A22B est un LLM de Qwen, publié le 25 juillet 2025 sous licence Apache 2.0. Ses poids ouverts et son usage commercial autorisé en font un modèle positionné à la fois sur l’accessibilité technique et sur la réutilisation en production.
Le modèle compte 235 milliards de paramètres, avec une fenêtre de contexte de 131 072 tokens et des connaissances arrêtées au 31 mars 2025. Son entraînement représente 4,8 × 10²⁴ FLOP, soit environ 1,3 million heures-GPU H100, l’équivalent d’environ 610 GPU H100 mobilisés pendant trois mois.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 25 juillet 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | non |
| Paramètres | 235 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: OTIS Mock AIME 2024-2025 | 86,7 % | 29ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 80,1 % | 42ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 68,9 % | 33ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 50,1 % | 17ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 12,0 % | 37ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| Arena Hard | 95,6 % | 1ᵉ / 26 | llm-stats | Auto-déclaré |
| GSM8k | 94,4 % | 16ᵉ / 47 | llm-stats | Auto-déclaré |
| BBH | 88,9 % | 1ᵉ / 12 | llm-stats | Auto-déclaré |
| MMLU | 87,8 % | 18ᵉ / 98 | llm-stats | Auto-déclaré |
| MMLU-Redux | 87,4 % | 31ᵉ / 48 | llm-stats | Auto-déclaré |
| MMMLU | 86,7 % | 21ᵉ / 49 | llm-stats | Auto-déclaré |
| AIME 2024 | 85,7 % | 17ᵉ / 52 | llm-stats | Auto-déclaré |
| MGSM | 83,5 % | 15ᵉ / 30 | llm-stats | Auto-déclaré |
| AIME 2025 | 81,5 % | 62ᵉ / 108 | llm-stats | Auto-déclaré |
| MBPP | 81,4 % | 11ᵉ / 33 | llm-stats | Auto-déclaré |
| EvalPlus | 77,6 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| LiveBench | 77,1 % | 7ᵉ / 38 | llm-stats | Auto-déclaré |
| Include | 73,5 % | 19ᵉ / 31 | llm-stats | Auto-déclaré |
| MATH | 71,8 % | 34ᵉ / 70 | llm-stats | Auto-déclaré |
| BFCL | 70,8 % | 5ᵉ / 11 | llm-stats | Auto-déclaré |
| LiveCodeBench | 70,7 % | 21ᵉ / 72 | llm-stats | Auto-déclaré |
| MMLU-Pro | 68,2 % | 87ᵉ / 125 | llm-stats | Auto-déclaré |
| MultiPL-E | 65,9 % | 11ᵉ / 13 | llm-stats | Auto-déclaré |
| Aider | 61,8 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| GPQA | 47,5 % | 164ᵉ / 213 | llm-stats | Auto-déclaré |
| SuperGPQA | 44,1 % | 31ᵉ / 34 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: OTIS Mock AIME 2024-2025
Epoch: GPQA diamond
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1403 | 116ᵉ |
| Arena Text | 1375 | 148ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,455 $ | 1,82 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 77 % en dessous de la moyenne des LLM similaires, et 10,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 4,8 × 10²⁴ FLOP |
| Taille du jeu d'entraînement | 3,6 × 10¹³ |
| Jeu de données | Unspecified unreleased |
| Pays | China |
Notre analyse
Forces. Qwen3 235B A22B se distingue surtout par son rapport performance-prix : son tarif est très économique, 77% sous la moyenne des LLM similaires et environ 10,6 fois inférieur à celui des modèles frontière. À sa sortie, il figurait dans le top 8% de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat. Il obtient aussi de bons résultats sur OTIS Mock AIME 2024-2025, qui mesure des problèmes d’olympiades de mathématiques niveau lycée, ainsi que sur SimpleQA Verified, centré sur les questions factuelles vérifiables.
Limites et points d'attention. Les résultats sont plus faibles sur les tâches les plus spécialisées ou extrêmes : Chess Puzzles le place en bas de tableau, et FrontierMath ne montre pas de capacité mesurable sur des mathématiques de recherche très difficiles. Les classements Arena text indiquent aussi un positionnement moins dominant dans les préférences générales. La fenêtre longue constitue un atout d’usage, mais elle ne compense pas ces limites de raisonnement spécialisé. Profil d’usage : un LLM open-weights économique pour des déploiements commerciaux nécessitant un grand contexte, avec une vigilance sur les tâches d’échecs et de mathématiques avancées.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.