Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B-Thinking-2507 est un LLM de Qwen publié le 25 juillet 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Il combine un très grand format, 235 milliards de paramètres, avec une fenêtre de contexte de 262 144 tokens et des connaissances arrêtées…
Qwen3-235B-A22B-Thinking-2507 est un LLM de Qwen publié le 25 juillet 2025, sous licence Apache 2.0 avec poids ouverts et usage commercial autorisé. Il combine un très grand format, 235 milliards de paramètres, avec une fenêtre de contexte de 262 144 tokens et des connaissances arrêtées au 30 juin 2025.
Son positionnement le distingue par un coût d’usage très bas : sa tarification est indiquée comme 95% inférieure à la moyenne des LLM similaires et environ 48,3 fois moins chère que les modèles frontière. À sa sortie, il se situait dans le top 13% de sa génération sur GPQA.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 25 juillet 2025 |
| Connaissances jusqu'à | 2025-06-30 |
| Multimodal | non |
| Paramètres | 235 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 98,0 % | 4ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 98,0 % | 23ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 94,0 % | 126ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,9 % | 86ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Keyword Topic Relevance Classification | 90,0 % | 5ᵉ / 9 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 73,4 % | 52ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 69,5 % | 46ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 69,0 % | 50ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 59,4 % | 51ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 53,0 % | 56ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 52,2 % | 47ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 40,6 % | 51ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 26,3 % | 212ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 20,0 % | 27ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 8,5 % | 40ᵉ / 69 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 6,7 % | 69ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 0,0 % | 47ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| MMLU-Redux | 93,8 % | 7ᵉ / 48 | llm-stats | Auto-déclaré |
| AIME 2025 | 92,3 % | 32ᵉ / 108 | llm-stats | Auto-déclaré |
| WritingBench | 88,3 % | 1ᵉ / 15 | llm-stats | Auto-déclaré |
| IFEval | 87,8 % | 28ᵉ / 65 | llm-stats | Auto-déclaré |
| Creative Writing v3 | 86,1 % | 3ᵉ / 12 | llm-stats | Auto-déclaré |
| MMLU-Pro | 84,4 % | 24ᵉ / 125 | llm-stats | Auto-déclaré |
| HMMT25 | 83,9 % | 11ᵉ / 25 | llm-stats | Auto-déclaré |
| GPQA | 81,1 % | 67ᵉ / 213 | llm-stats | Auto-déclaré |
| Include | 81,0 % | 8ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU-ProX | 81,0 % | 8ᵉ / 32 | llm-stats | Auto-déclaré |
| Multi-IF | 80,6 % | 1ᵉ / 20 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 79,7 % | 3ᵉ / 16 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 78,4 % | 2ᵉ / 14 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 74,1 % | 25ᵉ / 53 | llm-stats | Auto-déclaré |
| BFCL-v3 | 71,9 % | 6ᵉ / 19 | llm-stats | Auto-déclaré |
| Tau2 Retail | 71,9 % | 15ᵉ / 25 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 67,8 % | 15ᵉ / 24 | llm-stats | Auto-déclaré |
| SuperGPQA | 64,9 % | 11ᵉ / 34 | llm-stats | Auto-déclaré |
| PolyMATH | 60,1 % | 8ᵉ / 23 | llm-stats | Auto-déclaré |
| Tau2 Airline | 58,0 % | 12ᵉ / 22 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 46,0 % | 15ᵉ / 22 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 45,6 % | 30ᵉ / 34 | llm-stats | Auto-déclaré |
| OJBench | 32,5 % | 6ᵉ / 9 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 18,2 % | 55ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : General Knowledge (Baseline)
Benchable : Email Classification (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1399 | 120ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Weights & Biases | 0,1 $ | 0,1 $ | 0,1 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,79 $ |
| Latence moyenne par benchmark — Benchable | 40 min 45 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen3-235B-A22B-Thinking-2507 affiche ses meilleurs résultats Benchable en General Knowledge, où il atteint le tout premier rang du panel, et en Coding, où il figure dans le top 10. Le modèle se montre aussi solide en Reasoning et en Email Classification, avec des scores élevés qui indiquent une bonne tenue sur des tâches de raisonnement général, de code et de tri d’informations. Sa très grande fenêtre de contexte constitue un atout concret pour traiter de longs documents ou conserver beaucoup d’éléments dans une même requête. La licence Apache 2.0 et les poids ouverts renforcent son intérêt pour des déploiements contrôlés, y compris commerciaux, tandis que son prix le place nettement dans la catégorie très économique.
Limites et points d'attention. Les résultats sont moins distinctifs sur Ethics et Hallucinations, où les classements Benchable le situent plutôt en milieu de tableau malgré des scores élevés. L’Arena text le place aussi loin des tout premiers rangs, ce qui nuance ses performances en préférence humaine face à d’autres modèles. Sa date de connaissance arrêtée au 30 juin 2025 impose une vigilance sur les sujets récents. Il convient surtout aux usages recherchant un grand contexte, de bons résultats en connaissances générales et en code, des poids ouverts et un coût d’inférence très bas.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).