Agents & outils

DeepPlanning

DeepPlanning est un benchmark public conçu par la Qwen Team d’Alibaba, avec Junyang Lin et al., pour évaluer des modèles de langage sur des tâches de planification agentique à long horizon.

Il cible des situations complexes, comme l’organisation d’un voyage sur plusieurs jours ou des achats multi-produits, où le modèle doit décomposer un objectif, rechercher ou utiliser l’information pertinente, raisonner sous contraintes locales et optimiser des budgets de temps ou d’argent. Il sert ainsi à mesurer la capacité d’un modèle à produire des plans exécutables plutôt que de simples réponses ponctuelles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Qwen Team, Alibaba (Junyang Lin et al.)
Capacités mesurées	Planification agentique long-horizon : acquisition proactive d'information, raisonnement local sous contraintes, optimisation globale (budgets temps/argent)
Modalité	Texte
Type de questions	Taches agentiques de planification long-horizon (voyage multi-jours, achats multi-produits)
Métrique d'évaluation	Taux de reussite sous contraintes verifiables
Accès	Public
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7-Plus	Qwen	62,3 %	31 mai 2026	Auto-déclaré
2	Qwen3.6 Plus	Qwen	41,5 %	31 mars 2026	Auto-déclaré
3	Qwen3.5-397B-A17B	Qwen	34,3 %	16 février 2026	Auto-déclaré
4	Qwen3.6-35B-A3B	Qwen	25,9 %	16 avril 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	24,1 %	24 février 2026	Auto-déclaré
6	Qwen3.5-35B-A3B	Qwen	22,8 %	24 février 2026	Auto-déclaré
7	Qwen3.5-27B	Qwen	22,6 %	24 février 2026	Auto-déclaré
8	Qwen3.5-9B	Qwen	18,0 %	2 mars 2026	Auto-déclaré
9	Qwen3.5-4B	Qwen	17,6 %	2 mars 2026	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 24,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur DeepPlanning indique une meilleure capacité à mener une tâche longue jusqu’à une solution vérifiable, en respectant des contraintes explicites. Le taux de réussite reflète donc moins la fluidité linguistique que la robustesse d’un raisonnement multi-étapes, avec arbitrages et optimisation globale. La lecture du classement doit toutefois rester prudente : les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. La portée du benchmark est aussi spécialisée, centrée sur des scénarios de planification comme le voyage ou les achats, et ne suffit pas à résumer les performances générales d’un modèle. Aucun élément fourni ne permet d’évaluer une éventuelle saturation ou contamination. Le classement montre surtout une forte domination interne à l’écosystème Qwen : les 9 modèles classés dans la base sont édités par Qwen, qui a aussi co-développé DeepPlanning. Le benchmark est donc informatif pour comparer ces modèles entre eux, mais moins indépendant pour les opposer à ceux d’autres éditeurs.

Sources des scores : llm-stats.

DeepPlanning

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench