qwen-plus

qwen-plus est un LLM de Qwen sorti le 8 septembre 2025, positionné sur le segment très économique. Son tarif se situe 87% sous la moyenne des LLM similaires et nettement sous celui des modèles frontière, ce qui en fait un modèle orienté coût maîtrisé plutôt que vitrine haut de gamme.

qwen-plus est un LLM de Qwen sorti le 8 septembre 2025, positionné sur le segment très économique. Son tarif se situe 87% sous la moyenne des LLM similaires et nettement sous celui des modèles frontière, ce qui en fait un modèle orienté coût maîtrisé plutôt que vitrine haut de gamme.

Les données Benchable le décrivent comme particulièrement solide sur les tests Hallucinations et Ethics, où il apparaît dans le top 10. À sa sortie, son classement Epoch: GPQA diamond le plaçait dans le top 60% des LLM de sa génération, sur une base couverte par 3 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie8 septembre 2025

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)91,0 %105ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)86,0 %102ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)84,0 %150ᵉ / 248benchable✅ Mesuré
Epoch: MATH level 565,3 %35ᵉ / 84epoch✅ Mesuré
Benchable : Instruction Following (Baseline)61,0 %134ᵉ / 252benchable✅ Mesuré
Epoch: GPQA diamond48,1 %85ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202517,8 %74ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private1,7 %56ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

▶ qwen-plus100 %

Benchable : Ethics (Baseline)

▶ qwen-plus100 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Alibaba Cloud Int.0,26 $0,78 $n.d.
Alibaba Cloud Int.0,26 $0,78 $0,052 $

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 18,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable4 min 34 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen-plus ressort d’abord par sa fiabilité sur les benchmarks Benchable liés aux hallucinations et à l’éthique, deux domaines où il atteint le meilleur niveau observé dans l’échantillon et figure dans le top 10. Cette combinaison signale un modèle intéressant pour des tâches où la cohérence factuelle et le cadrage des réponses comptent davantage que la performance maximale brute. Son autre atout majeur est économique : le prix d’entrée et de sortie le place très en dessous de la moyenne des LLM similaires, avec un écart particulièrement marqué face aux modèles frontière. À sa sortie, son positionnement Epoch: GPQA diamond le situait dans une zone correcte de sa génération, sans en faire un modèle de tête.

Limites et points d'attention. Les résultats sont moins distinctifs sur General Knowledge, Email Classification, Mathematics et Reasoning, où qwen-plus apparaît plutôt en milieu de tableau ou derrière de nombreux concurrents malgré des scores parfois élevés en valeur absolue. Le modèle ne présente donc pas, d’après les données fournies, un profil de référence pour le raisonnement avancé, les mathématiques ou les tâches de connaissance générale exigeantes. Profil adapté : usages sensibles au coût, avec priorité à des réponses encadrées et à une bonne tenue sur les risques d’hallucination ou d’éthique.


Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).