Qwen

qwen-plus

qwen-plus est un LLM de Qwen sorti le 8 septembre 2025, positionné sur le segment très économique. Son tarif se situe 87% sous la moyenne des LLM similaires et nettement sous celui des modèles frontière, ce qui en fait un modèle orienté coût maîtrisé plutôt que vitrine haut de gamme.

Les données Benchable le décrivent comme particulièrement solide sur les tests Hallucinations et Ethics, où il apparaît dans le top 10. À sa sortie, son classement Epoch: GPQA diamond le plaçait dans le top 60% des LLM de sa génération, sur une base couverte par 3 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Date de sortie	8 septembre 2025

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	91,0 %	105ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	86,0 %	102ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	84,0 %	150ᵉ / 248	benchable	✅ Mesuré
Epoch: MATH level 5	65,3 %	35ᵉ / 84	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	61,0 %	134ᵉ / 252	benchable	✅ Mesuré
Epoch: GPQA diamond	48,1 %	85ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	17,8 %	74ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	1,7 %	56ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ qwen-plus100 %

Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ qwen-plus100 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Alibaba Cloud Int.	0,26 $	0,78 $	n.d.
Alibaba Cloud Int.	0,26 $	0,78 $	0,052 $

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 18,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	4 min 34 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. qwen-plus ressort d’abord par sa fiabilité sur les benchmarks Benchable liés aux hallucinations et à l’éthique, deux domaines où il atteint le meilleur niveau observé dans l’échantillon et figure dans le top 10. Cette combinaison signale un modèle intéressant pour des tâches où la cohérence factuelle et le cadrage des réponses comptent davantage que la performance maximale brute. Son autre atout majeur est économique : le prix d’entrée et de sortie le place très en dessous de la moyenne des LLM similaires, avec un écart particulièrement marqué face aux modèles frontière. À sa sortie, son positionnement Epoch: GPQA diamond le situait dans une zone correcte de sa génération, sans en faire un modèle de tête.

Limites et points d'attention. Les résultats sont moins distinctifs sur General Knowledge, Email Classification, Mathematics et Reasoning, où qwen-plus apparaît plutôt en milieu de tableau ou derrière de nombreux concurrents malgré des scores parfois élevés en valeur absolue. Le modèle ne présente donc pas, d’après les données fournies, un profil de référence pour le raisonnement avancé, les mathématiques ou les tâches de connaissance générale exigeantes. Profil adapté : usages sensibles au coût, avec priorité à des réponses encadrées et à une bonne tenue sur les risques d’hallucination ou d’éthique.

Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

qwen-plus

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast