Qwen: Qwen3 30B A3B Thinking 2507
Qwen: Qwen3 30B A3B Thinking 2507 est un LLM de Qwen publié le 28 août 2025, avec des connaissances arrêtées au 30 juin 2025. Sa fiche se distingue par une très grande fenêtre de contexte, fixée à 131 072 tokens, et par un positionnement tarifaire très économique.
Qwen: Qwen3 30B A3B Thinking 2507 est un LLM de Qwen publié le 28 août 2025, avec des connaissances arrêtées au 30 juin 2025. Sa fiche se distingue par une très grande fenêtre de contexte, fixée à 131 072 tokens, et par un positionnement tarifaire très économique.
Le modèle combine des résultats Benchable élevés sur plusieurs usages de base et un coût nettement inférieur à celui des LLM comparables. Sa tarification est indiquée 96% sous la moyenne des modèles similaires et environ 60.4 fois moins chère que les modèles frontière, avec deux sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Date de sortie | 28 août 2025 |
| Connaissances jusqu'à | 2025-06-30 |
| Multimodal | non |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 98,0 % | 23ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,9 % | 63ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,9 % | 75ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Keyword Topic Relevance Classification | 90,0 % | 5ᵉ / 9 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 84,0 % | 172ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 0,0 % | 229ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| AtlasCloud | 0,08 $ | 0,4 $ | 0,08 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 60,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,03 $ |
| Latence moyenne par benchmark — Benchable | 16 min 22 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen: Qwen3 30B A3B Thinking 2507 obtient son meilleur signal sur Ethics (Baseline), où il atteint le top 10 et la première place du classement Benchable disponible. Les résultats restent très solides en Email Classification, Reasoning, Mathematics et Coding, ce qui dessine un profil polyvalent plutôt qu’un modèle spécialisé sur une seule tâche. General Knowledge atteint aussi le score maximal publié, même si son rang montre une concurrence dense sur ce benchmark. La fenêtre de contexte de 131 072 tokens constitue un autre atout concret pour traiter de longs contenus, des corpus documentaires ou des échanges étendus. Le prix renforce fortement l’intérêt économique du modèle, avec un coût d’entrée et de sortie très bas par rapport aux LLM similaires.
Limites et points d'attention. Les classements Benchable en Mathematics et Coding restent moins dominants que le score brut ne le suggère, avec des positions davantage en milieu supérieur de tableau qu’en tête de catégorie. Le rang en General Knowledge confirme aussi que plusieurs modèles obtiennent des résultats comparables ou mieux classés sur ce terrain. Les données disponibles ne décrivent ni modalités non textuelles, ni performances agentiques, ni évaluations spécialisées comme GPQA, SWE-Bench, FrontierMath ou Arena Code. Les connaissances s’arrêtent au 30 juin 2025, ce qui limite la fiabilité sur les événements, produits et changements postérieurs. Le modèle convient surtout aux usages textuels à fort volume, sensibles au coût, avec un besoin de raisonnement général et de long contexte.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).