VITA-Bench

VITA-Bench est un benchmark public créé par Meituan LongCat pour évaluer des agents d’IA dans des tâches virtuelles inspirées de situations réelles. Il cible l’automatisation de processus complexes, notamment autour de la livraison de repas, de la consommation en magasin et des voyages…

VITA-Bench est un benchmark public créé par Meituan LongCat pour évaluer des agents d’IA dans des tâches virtuelles inspirées de situations réelles. Il cible l’automatisation de processus complexes, notamment autour de la livraison de repas, de la consommation en magasin et des voyages en ligne.

Le benchmark met l’accent sur des tâches interactives multi-étapes, avec appels d’outils dans un environnement simulé. Son rôle est de mesurer la capacité d’un modèle à planifier, utiliser des outils et s’adapter à des scénarios composables plutôt qu’à répondre à de simples questions statiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMeituan LongCat
Capacités mesuréesAutomatisation de taches reelles versatiles : livraison de repas, consommation en magasin, voyages en ligne ; composition flexible de scenarios et d'outils
ModalitéTexte
Type de questionsTaches interactives multi-etapes pour agents avec appels d'outils (environnement simule)
Métrique d'évaluationTaux de reussite (success rate) via evaluateur a fenetre glissante base sur rubriques
AccèsPublic
Languesanglais
Taille du jeu100 taches inter-scenarios + 300 taches mono-scenario, 66 outils
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-397B-A17BQwen49,7 %16 février 2026Auto-déclaré
2Qwen3.7 MaxQwen47,9 %19 mai 2026Auto-déclaré
3Qwen3.7-PlusQwen45,6 %31 mai 2026Auto-déclaré
4Qwen3.6 PlusQwen44,3 %31 mars 2026Auto-déclaré
5Qwen3.5-27BQwen41,9 %24 février 2026Auto-déclaré
6Qwen3.6-35B-A3BQwen35,6 %16 avril 2026Auto-déclaré
7Qwen3.5-122B-A10BQwen33,6 %24 février 2026Auto-déclaré
8Qwen3.5-35B-A3BQwen31,9 %24 février 2026Auto-déclaré
9Qwen3.5-9BQwen29,8 %2 mars 2026Auto-déclaré
10Qwen3.5-4BQwen22,0 %2 mars 2026Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 38,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VITA-Bench indique qu’un agent parvient plus souvent à mener à terme des tâches multi-étapes avec outils, dans des scénarios simulés qui exigent coordination, suivi d’état et choix d’actions. La métrique repose sur un taux de réussite évalué par un système à fenêtre glissante fondé sur des rubriques, ce qui vise à mieux refléter l’accomplissement effectif d’une tâche que des réponses isolées. La prudence reste toutefois nécessaire, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement centralisée. Le niveau médian de 39 % et le meilleur score à 50 %, obtenu par Qwen3.5-397B-A17B, suggèrent un benchmark encore loin d’être saturé. Ses limites tiennent aussi à sa portée, centrée sur quelques domaines de services, à l’usage de l’anglais et à la nature simulée des environnements. Son accès public peut également accroître le risque de contamination au fil du temps.


Sources des scores : llm-stats.