Qwen3-235B-A22B-Instruct-2507
Qwen3-235B-A22B-Instruct-2507 est un LLM de Qwen publié le 22 juillet 2025, diffusé en open-weights sous licence Apache 2.0 avec usage commercial autorisé. Le modèle combine une taille totale de 235 milliards de paramètres avec 22 milliards de paramètres actifs, et s’appuie sur des…
Qwen3-235B-A22B-Instruct-2507 est un LLM de Qwen publié le 22 juillet 2025, diffusé en open-weights sous licence Apache 2.0 avec usage commercial autorisé. Le modèle combine une taille totale de 235 milliards de paramètres avec 22 milliards de paramètres actifs, et s’appuie sur des connaissances arrêtées au 30 juin 2025.
Son positionnement se distingue surtout par une très grande fenêtre de contexte de 262 144 tokens et par un tarif très économique, annoncé 95% sous la moyenne des LLM similaires et environ 53.7 fois inférieur aux modèles frontière. Les données disponibles reposent sur 5 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 22 juillet 2025 |
| Connaissances jusqu'à | 2025-06-30 |
| Multimodal | non |
| Paramètres | 235 milliards |
| Paramètres actifs | 22 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 18.2 | 106ᵉ / 136 |
| Math Index | 71.7 | 20ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| LiveBench: Coding | 69,6 % | 47ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Mathematics | 68,0 % | 59ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 66,1 % | 52ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 58,4 % | 53ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 48,8 % | 61ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 44,7 % | 66ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 21,7 % | 68ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 13,3 % | 66ᵉ / 76 | livebench | ✅ Mesuré |
| ZebraLogic | 95,0 % | 3ᵉ / 7 | llm-stats | Auto-déclaré |
| MMLU-Redux | 93,1 % | 14ᵉ / 48 | llm-stats | Auto-déclaré |
| IFEval | 88,7 % | 24ᵉ / 65 | llm-stats | Auto-déclaré |
| MultiPL-E | 87,9 % | 1ᵉ / 13 | llm-stats | Auto-déclaré |
| Creative Writing v3 | 87,5 % | 1ᵉ / 12 | llm-stats | Auto-déclaré |
| WritingBench | 85,2 % | 7ᵉ / 15 | llm-stats | Auto-déclaré |
| CSimpleQA | 84,3 % | 2ᵉ / 7 | llm-stats | Auto-déclaré |
| MMLU-Pro | 83,0 % | 30ᵉ / 125 | llm-stats | Auto-déclaré |
| Include | 79,5 % | 12ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU-ProX | 79,4 % | 11ᵉ / 32 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 79,2 % | 4ᵉ / 16 | llm-stats | Auto-déclaré |
| GPQA | 77,5 % | 83ᵉ / 213 | llm-stats | Auto-déclaré |
| Multi-IF | 77,5 % | 6ᵉ / 20 | llm-stats | Auto-déclaré |
| LiveBench 20241125 | 75,4 % | 5ᵉ / 14 | llm-stats | Auto-déclaré |
| Tau2 Retail | 71,3 % | 17ᵉ / 25 | llm-stats | Auto-déclaré |
| BFCL-v3 | 70,9 % | 9ᵉ / 19 | llm-stats | Auto-déclaré |
| AIME 2025 | 70,3 % | 83ᵉ / 108 | llm-stats | Auto-déclaré |
| SuperGPQA | 62,6 % | 15ᵉ / 34 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 57,3 % | 14ᵉ / 22 | llm-stats | Auto-déclaré |
| HMMT25 | 55,4 % | 20ᵉ / 25 | llm-stats | Auto-déclaré |
| SimpleQA | 54,3 % | 11ᵉ / 45 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 51,8 % | 45ᵉ / 53 | llm-stats | Auto-déclaré |
| PolyMATH | 50,2 % | 14ᵉ / 23 | llm-stats | Auto-déclaré |
| Tau2 Airline | 44,0 % | 22ᵉ / 22 | llm-stats | Auto-déclaré |
| ARC-AGI | 41,8 % | 7ᵉ / 7 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1423 | 85ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,09 $ | 0,1 $ | n.d. |
| artificialanalysis | 0,2 $ | 0,825 $ | 0,2 $ |
| artificialanalysis | 0,4 $ | 2,15 $ | 0,4 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 53,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Notre analyse
Forces. Qwen3-235B-A22B-Instruct-2507 ressort d’abord par son rapport coût-capacité : ses prix d’entrée et de sortie le placent dans une catégorie nettement moins chère que les modèles haut de gamme, tout en conservant une licence permissive pour des usages commerciaux. Son meilleur signal comparatif vient des mathématiques, avec un Math Index situé dans la partie haute du panel mesuré et des résultats LiveBench: Mathematics solides. Le modèle reste aussi compétitif en programmation dans LiveBench: Coding (programmation), qui fait partie de ses mesures les plus favorables. À sa sortie, il se situait dans le top 19% des LLM de sa génération sur GPQA, ce qui indique un positionnement initial crédible sur les tâches d’évaluation exigeantes.
Limites et points d'attention. L’Intelligence Index place Qwen3-235B-A22B-Instruct-2507 loin des meilleurs modèles du panel, malgré sa grande taille totale. LiveBench: Global average le situe plutôt en milieu inférieur de classement, avec un point faible net en LiveBench: Data Analysis (analyse de données). Les scores LiveBench: Language (compréhension du langage) et LiveBench: Reasoning (raisonnement) restent corrects mais sans signal de domination. Arena text le classe également dans une zone intermédiaire, ce qui limite son intérêt pour les usages où la préférence humaine en conversation longue ou en rédaction est centrale. Le modèle convient surtout aux déploiements sensibles au coût, aux contextes longs et aux contraintes de licence ouverte, lorsque les performances maximales ne sont pas le critère principal.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai).