qwen-plus
qwen-plus est un LLM de Qwen sorti le 8 septembre 2025, positionné sur le segment très économique. Son tarif se situe 87% sous la moyenne des LLM similaires et nettement sous celui des modèles frontière, ce qui en fait un modèle orienté coût maîtrisé plutôt que vitrine haut de gamme.
qwen-plus est un LLM de Qwen sorti le 8 septembre 2025, positionné sur le segment très économique. Son tarif se situe 87% sous la moyenne des LLM similaires et nettement sous celui des modèles frontière, ce qui en fait un modèle orienté coût maîtrisé plutôt que vitrine haut de gamme.
Les données Benchable le décrivent comme particulièrement solide sur les tests Hallucinations et Ethics, où il apparaît dans le top 10. À sa sortie, son classement Epoch: GPQA diamond le plaçait dans le top 60% des LLM de sa génération, sur une base couverte par 3 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Date de sortie | 8 septembre 2025 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 91,0 % | 105ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 86,0 % | 102ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 84,0 % | 150ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 65,3 % | 35ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 61,0 % | 134ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 48,1 % | 85ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 17,8 % | 74ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 1,7 % | 56ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Alibaba Cloud Int. | 0,26 $ | 0,78 $ | n.d. |
| Alibaba Cloud Int. | 0,26 $ | 0,78 $ | 0,052 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 18,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 4 min 34 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. qwen-plus ressort d’abord par sa fiabilité sur les benchmarks Benchable liés aux hallucinations et à l’éthique, deux domaines où il atteint le meilleur niveau observé dans l’échantillon et figure dans le top 10. Cette combinaison signale un modèle intéressant pour des tâches où la cohérence factuelle et le cadrage des réponses comptent davantage que la performance maximale brute. Son autre atout majeur est économique : le prix d’entrée et de sortie le place très en dessous de la moyenne des LLM similaires, avec un écart particulièrement marqué face aux modèles frontière. À sa sortie, son positionnement Epoch: GPQA diamond le situait dans une zone correcte de sa génération, sans en faire un modèle de tête.
Limites et points d'attention. Les résultats sont moins distinctifs sur General Knowledge, Email Classification, Mathematics et Reasoning, où qwen-plus apparaît plutôt en milieu de tableau ou derrière de nombreux concurrents malgré des scores parfois élevés en valeur absolue. Le modèle ne présente donc pas, d’après les données fournies, un profil de référence pour le raisonnement avancé, les mathématiques ou les tâches de connaissance générale exigeantes. Profil adapté : usages sensibles au coût, avec priorité à des réponses encadrées et à une bonne tenue sur les risques d’hallucination ou d’éthique.
Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).