Qwen 3.5 Plus
Qwen 3.5 Plus est un LLM de Qwen sorti le 16 février 2026. Le modèle se distingue surtout par une combinaison solide entre tâches de classification, contrôle des hallucinations et raisonnement scientifique, avec des résultats concordants issus de deux sources de données.
Qwen 3.5 Plus est un LLM de Qwen sorti le 16 février 2026. Le modèle se distingue surtout par une combinaison solide entre tâches de classification, contrôle des hallucinations et raisonnement scientifique, avec des résultats concordants issus de deux sources de données.
À sa sortie, Qwen 3.5 Plus se situait dans le top 21% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat. Son profil le place parmi les modèles généralistes récents les plus compétitifs sur les tâches académiques exigeantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Date de sortie | 16 février 2026 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 85,0 % | 36ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 84,2 % | 33ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 76,0 % | 65ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 50,0 % | 16ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 26,0 % | 40ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 21,0 % | 29ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 17,0 % | 30ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 2,1 % | 39ᵉ / 55 | epoch | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 0,0 % | 238ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 0,0 % | 237ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 0,0 % | 232ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 0,0 % | 236ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 0,0 % | 206ᵉ / 217 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Hallucinations (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,24 $ |
| Latence moyenne par benchmark — Benchable | 25 min 25 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen 3.5 Plus atteint le top 10 sur Email Classification (Baseline), ce qui indique une très forte fiabilité sur une tâche structurée de tri et d'étiquetage de messages. Le modèle obtient aussi un score élevé sur Hallucinations (Baseline), signe d'une bonne maîtrise des réponses factuelles dans ce protocole. Ses résultats sur GPQA diamond (questions scientifiques niveau doctorat) et OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) montrent un niveau solide en raisonnement scientifique et mathématique. Sur FrontierMath-2025-02-28-Public, benchmark de mathématiques de recherche très difficiles, il se classe dans la partie haute du panel évalué, ce qui renforce son positionnement académique.
Limites et points d'attention. Le suivi d'instructions apparaît moins dominant que ses meilleurs résultats, avec une position plus intermédiaire sur Instruction Following (Baseline). Le rang sur Hallucinations (Baseline), malgré un score élevé, montre aussi que plusieurs modèles évalués font mieux dans ce cadre précis. Qwen 3.5 Plus est donc surtout lisible comme un modèle fort en classification, sciences et mathématiques, mais pas comme un leader uniforme sur tous les usages généralistes. Son intérêt principal concerne les évaluations où la rigueur de raisonnement et la précision de réponse comptent davantage que la polyvalence conversationnelle pure.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).