DeepPlanning
DeepPlanning est un benchmark public conçu par la Qwen Team d’Alibaba, avec Junyang Lin et al., pour évaluer des modèles de langage sur des tâches de planification agentique à long horizon.
DeepPlanning est un benchmark public conçu par la Qwen Team d’Alibaba, avec Junyang Lin et al., pour évaluer des modèles de langage sur des tâches de planification agentique à long horizon.
Il cible des situations complexes, comme l’organisation d’un voyage sur plusieurs jours ou des achats multi-produits, où le modèle doit décomposer un objectif, rechercher ou utiliser l’information pertinente, raisonner sous contraintes locales et optimiser des budgets de temps ou d’argent. Il sert ainsi à mesurer la capacité d’un modèle à produire des plans exécutables plutôt que de simples réponses ponctuelles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Qwen Team, Alibaba (Junyang Lin et al.) |
| Capacités mesurées | Planification agentique long-horizon : acquisition proactive d'information, raisonnement local sous contraintes, optimisation globale (budgets temps/argent) |
| Modalité | Texte |
| Type de questions | Taches agentiques de planification long-horizon (voyage multi-jours, achats multi-produits) |
| Métrique d'évaluation | Taux de reussite sous contraintes verifiables |
| Accès | Public |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7-Plus | Qwen | 62,3 % | 31 mai 2026 | Auto-déclaré |
| 2 | Qwen3.6 Plus | Qwen | 41,5 % | 31 mars 2026 | Auto-déclaré |
| 3 | Qwen3.5-397B-A17B | Qwen | 34,3 % | 16 février 2026 | Auto-déclaré |
| 4 | Qwen3.6-35B-A3B | Qwen | 25,9 % | 16 avril 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 24,1 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-35B-A3B | Qwen | 22,8 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 22,6 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.5-9B | Qwen | 18,0 % | 2 mars 2026 | Auto-déclaré |
| 9 | Qwen3.5-4B | Qwen | 17,6 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 24,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur DeepPlanning indique une meilleure capacité à mener une tâche longue jusqu’à une solution vérifiable, en respectant des contraintes explicites. Le taux de réussite reflète donc moins la fluidité linguistique que la robustesse d’un raisonnement multi-étapes, avec arbitrages et optimisation globale. La lecture du classement doit toutefois rester prudente : les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. La portée du benchmark est aussi spécialisée, centrée sur des scénarios de planification comme le voyage ou les achats, et ne suffit pas à résumer les performances générales d’un modèle. Aucun élément fourni ne permet d’évaluer une éventuelle saturation ou contamination. Le classement montre surtout une forte domination interne à l’écosystème Qwen : les 9 modèles classés dans la base sont édités par Qwen, qui a aussi co-développé DeepPlanning. Le benchmark est donc informatif pour comparer ces modèles entre eux, mais moins indépendant pour les opposer à ceux d’autres éditeurs.
Sources des scores : llm-stats.