DeepPlanning

DeepPlanning est un benchmark public conçu par la Qwen Team d’Alibaba, avec Junyang Lin et al., pour évaluer des modèles de langage sur des tâches de planification agentique à long horizon.

DeepPlanning est un benchmark public conçu par la Qwen Team d’Alibaba, avec Junyang Lin et al., pour évaluer des modèles de langage sur des tâches de planification agentique à long horizon.

Il cible des situations complexes, comme l’organisation d’un voyage sur plusieurs jours ou des achats multi-produits, où le modèle doit décomposer un objectif, rechercher ou utiliser l’information pertinente, raisonner sous contraintes locales et optimiser des budgets de temps ou d’argent. Il sert ainsi à mesurer la capacité d’un modèle à produire des plans exécutables plutôt que de simples réponses ponctuelles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkQwen Team, Alibaba (Junyang Lin et al.)
Capacités mesuréesPlanification agentique long-horizon : acquisition proactive d'information, raisonnement local sous contraintes, optimisation globale (budgets temps/argent)
ModalitéTexte
Type de questionsTaches agentiques de planification long-horizon (voyage multi-jours, achats multi-produits)
Métrique d'évaluationTaux de reussite sous contraintes verifiables
AccèsPublic
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7-PlusQwen62,3 %31 mai 2026Auto-déclaré
2Qwen3.6 PlusQwen41,5 %31 mars 2026Auto-déclaré
3Qwen3.5-397B-A17BQwen34,3 %16 février 2026Auto-déclaré
4Qwen3.6-35B-A3BQwen25,9 %16 avril 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen24,1 %24 février 2026Auto-déclaré
6Qwen3.5-35B-A3BQwen22,8 %24 février 2026Auto-déclaré
7Qwen3.5-27BQwen22,6 %24 février 2026Auto-déclaré
8Qwen3.5-9BQwen18,0 %2 mars 2026Auto-déclaré
9Qwen3.5-4BQwen17,6 %2 mars 2026Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 24,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur DeepPlanning indique une meilleure capacité à mener une tâche longue jusqu’à une solution vérifiable, en respectant des contraintes explicites. Le taux de réussite reflète donc moins la fluidité linguistique que la robustesse d’un raisonnement multi-étapes, avec arbitrages et optimisation globale. La lecture du classement doit toutefois rester prudente : les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. La portée du benchmark est aussi spécialisée, centrée sur des scénarios de planification comme le voyage ou les achats, et ne suffit pas à résumer les performances générales d’un modèle. Aucun élément fourni ne permet d’évaluer une éventuelle saturation ou contamination. Le classement montre surtout une forte domination interne à l’écosystème Qwen : les 9 modèles classés dans la base sont édités par Qwen, qui a aussi co-développé DeepPlanning. Le benchmark est donc informatif pour comparer ces modèles entre eux, mais moins indépendant pour les opposer à ceux d’autres éditeurs.


Sources des scores : llm-stats.