Agents & outils

VITA-Bench

VITA-Bench est un benchmark public créé par Meituan LongCat pour évaluer des agents d’IA dans des tâches virtuelles inspirées de situations réelles. Il cible l’automatisation de processus complexes, notamment autour de la livraison de repas, de la consommation en magasin et des voyages…

Le benchmark met l’accent sur des tâches interactives multi-étapes, avec appels d’outils dans un environnement simulé. Son rôle est de mesurer la capacité d’un modèle à planifier, utiliser des outils et s’adapter à des scénarios composables plutôt qu’à répondre à de simples questions statiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Meituan LongCat
Capacités mesurées	Automatisation de taches reelles versatiles : livraison de repas, consommation en magasin, voyages en ligne ; composition flexible de scenarios et d'outils
Modalité	Texte
Type de questions	Taches interactives multi-etapes pour agents avec appels d'outils (environnement simule)
Métrique d'évaluation	Taux de reussite (success rate) via evaluateur a fenetre glissante base sur rubriques
Accès	Public
Langues	anglais
Taille du jeu	100 taches inter-scenarios + 300 taches mono-scenario, 66 outils
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-397B-A17B	Qwen	49,7 %	16 février 2026	Auto-déclaré
2	Qwen3.7 Max	Qwen	47,9 %	19 mai 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	45,6 %	31 mai 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	44,3 %	31 mars 2026	Auto-déclaré
5	Qwen3.5-27B	Qwen	41,9 %	24 février 2026	Auto-déclaré
6	Qwen3.6-35B-A3B	Qwen	35,6 %	16 avril 2026	Auto-déclaré
7	Qwen3.5-122B-A10B	Qwen	33,6 %	24 février 2026	Auto-déclaré
8	Qwen3.5-35B-A3B	Qwen	31,9 %	24 février 2026	Auto-déclaré
9	Qwen3.5-9B	Qwen	29,8 %	2 mars 2026	Auto-déclaré
10	Qwen3.5-4B	Qwen	22,0 %	2 mars 2026	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 38,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VITA-Bench indique qu’un agent parvient plus souvent à mener à terme des tâches multi-étapes avec outils, dans des scénarios simulés qui exigent coordination, suivi d’état et choix d’actions. La métrique repose sur un taux de réussite évalué par un système à fenêtre glissante fondé sur des rubriques, ce qui vise à mieux refléter l’accomplissement effectif d’une tâche que des réponses isolées. La prudence reste toutefois nécessaire, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement centralisée. Le niveau médian de 39 % et le meilleur score à 50 %, obtenu par Qwen3.5-397B-A17B, suggèrent un benchmark encore loin d’être saturé. Ses limites tiennent aussi à sa portée, centrée sur quelques domaines de services, à l’usage de l’anglais et à la nature simulée des environnements. Son accès public peut également accroître le risque de contamination au fil du temps.

Sources des scores : llm-stats.

VITA-Bench

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench