Qwen 3.5 Plus

Qwen 3.5 Plus est un LLM de Qwen sorti le 16 février 2026. Le modèle se distingue surtout par une combinaison solide entre tâches de classification, contrôle des hallucinations et raisonnement scientifique, avec des résultats concordants issus de deux sources de données.

Qwen 3.5 Plus est un LLM de Qwen sorti le 16 février 2026. Le modèle se distingue surtout par une combinaison solide entre tâches de classification, contrôle des hallucinations et raisonnement scientifique, avec des résultats concordants issus de deux sources de données.

À sa sortie, Qwen 3.5 Plus se situait dans le top 21% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Son profil le place parmi les modèles généralistes récents les plus compétitifs sur les tâches académiques exigeantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie16 février 2026

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202585,0 %36ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond84,2 %33ᵉ / 132epoch✅ Mesuré
Benchable : Instruction Following (Baseline)76,0 %65ᵉ / 252benchable✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public50,0 %16ᵉ / 64epoch✅ Mesuré
Epoch: SimpleQA Verified26,0 %40ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private21,0 %29ᵉ / 69epoch✅ Mesuré
Epoch: Chess Puzzles17,0 %30ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private2,1 %39ᵉ / 55epoch✅ Mesuré
Benchable : General Knowledge (Baseline)0,0 %238ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)0,0 %237ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)0,0 %232ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)0,0 %236ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)0,0 %206ᵉ / 217benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

▶ Qwen 3.5 Plus100 %

Benchable : Hallucinations (Baseline)

▶ Qwen 3.5 Plus98 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,24 $
Latence moyenne par benchmark — Benchable25 min 25 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Qwen 3.5 Plus atteint le top 10 sur Email Classification (Baseline), ce qui indique une très forte fiabilité sur une tâche structurée de tri et d'étiquetage de messages. Le modèle obtient aussi un score élevé sur Hallucinations (Baseline), signe d'une bonne maîtrise des réponses factuelles dans ce protocole. Ses résultats sur GPQA diamond (questions scientifiques niveau doctorat) et OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) montrent un niveau solide en raisonnement scientifique et mathématique. Sur FrontierMath-2025-02-28-Public, benchmark de mathématiques de recherche très difficiles, il se classe dans la partie haute du panel évalué, ce qui renforce son positionnement académique.

Limites et points d'attention. Le suivi d'instructions apparaît moins dominant que ses meilleurs résultats, avec une position plus intermédiaire sur Instruction Following (Baseline). Le rang sur Hallucinations (Baseline), malgré un score élevé, montre aussi que plusieurs modèles évalués font mieux dans ce cadre précis. Qwen 3.5 Plus est donc surtout lisible comme un modèle fort en classification, sciences et mathématiques, mais pas comme un leader uniforme sur tous les usages généralistes. Son intérêt principal concerne les évaluations où la rigueur de raisonnement et la précision de réponse comptent davantage que la polyvalence conversationnelle pure.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).