Qwen

Qwen 3.5 Plus

Qwen 3.5 Plus est un LLM de Qwen sorti le 16 février 2026. Le modèle se distingue surtout par une combinaison solide entre tâches de classification, contrôle des hallucinations et raisonnement scientifique, avec des résultats concordants issus de deux sources de données.

À sa sortie, Qwen 3.5 Plus se situait dans le top 21% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Son profil le place parmi les modèles généralistes récents les plus compétitifs sur les tâches académiques exigeantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Date de sortie	16 février 2026

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	85,0 %	36ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	84,2 %	33ᵉ / 132	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	76,0 %	65ᵉ / 252	benchable	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	50,0 %	16ᵉ / 64	epoch	✅ Mesuré
Epoch: SimpleQA Verified	26,0 %	40ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	21,0 %	29ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	17,0 %	30ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	2,1 %	39ᵉ / 55	epoch	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	0,0 %	237ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	0,0 %	232ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	0,0 %	236ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	0,0 %	206ᵉ / 217	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

Nemotron 3 Ultra100 %

▶ Qwen 3.5 Plus100 %

Claude Sonnet 499 %

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Nemotron Nano 9B v298 %

▶ Qwen 3.5 Plus98 %

Llama 3.3 70B Instruct96 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,24 $
Latence moyenne par benchmark — Benchable	25 min 25 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen 3.5 Plus atteint le top 10 sur Email Classification (Baseline), ce qui indique une très forte fiabilité sur une tâche structurée de tri et d'étiquetage de messages. Le modèle obtient aussi un score élevé sur Hallucinations (Baseline), signe d'une bonne maîtrise des réponses factuelles dans ce protocole. Ses résultats sur GPQA diamond (questions scientifiques niveau doctorat) et OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) montrent un niveau solide en raisonnement scientifique et mathématique. Sur FrontierMath-2025-02-28-Public, benchmark de mathématiques de recherche très difficiles, il se classe dans la partie haute du panel évalué, ce qui renforce son positionnement académique.

Limites et points d'attention. Le suivi d'instructions apparaît moins dominant que ses meilleurs résultats, avec une position plus intermédiaire sur Instruction Following (Baseline). Le rang sur Hallucinations (Baseline), malgré un score élevé, montre aussi que plusieurs modèles évalués font mieux dans ce cadre précis. Qwen 3.5 Plus est donc surtout lisible comme un modèle fort en classification, sciences et mathématiques, mais pas comme un leader uniforme sur tous les usages généralistes. Son intérêt principal concerne les évaluations où la rigueur de raisonnement et la précision de réponse comptent davantage que la polyvalence conversationnelle pure.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Qwen 3.5 Plus

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast