VITA-Bench
VITA-Bench est un benchmark public créé par Meituan LongCat pour évaluer des agents d’IA dans des tâches virtuelles inspirées de situations réelles. Il cible l’automatisation de processus complexes, notamment autour de la livraison de repas, de la consommation en magasin et des voyages…
VITA-Bench est un benchmark public créé par Meituan LongCat pour évaluer des agents d’IA dans des tâches virtuelles inspirées de situations réelles. Il cible l’automatisation de processus complexes, notamment autour de la livraison de repas, de la consommation en magasin et des voyages en ligne.
Le benchmark met l’accent sur des tâches interactives multi-étapes, avec appels d’outils dans un environnement simulé. Son rôle est de mesurer la capacité d’un modèle à planifier, utiliser des outils et s’adapter à des scénarios composables plutôt qu’à répondre à de simples questions statiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Meituan LongCat |
| Capacités mesurées | Automatisation de taches reelles versatiles : livraison de repas, consommation en magasin, voyages en ligne ; composition flexible de scenarios et d'outils |
| Modalité | Texte |
| Type de questions | Taches interactives multi-etapes pour agents avec appels d'outils (environnement simule) |
| Métrique d'évaluation | Taux de reussite (success rate) via evaluateur a fenetre glissante base sur rubriques |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 100 taches inter-scenarios + 300 taches mono-scenario, 66 outils |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-397B-A17B | Qwen | 49,7 % | 16 février 2026 | Auto-déclaré |
| 2 | Qwen3.7 Max | Qwen | 47,9 % | 19 mai 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 45,6 % | 31 mai 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 44,3 % | 31 mars 2026 | Auto-déclaré |
| 5 | Qwen3.5-27B | Qwen | 41,9 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.6-35B-A3B | Qwen | 35,6 % | 16 avril 2026 | Auto-déclaré |
| 7 | Qwen3.5-122B-A10B | Qwen | 33,6 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.5-35B-A3B | Qwen | 31,9 % | 24 février 2026 | Auto-déclaré |
| 9 | Qwen3.5-9B | Qwen | 29,8 % | 2 mars 2026 | Auto-déclaré |
| 10 | Qwen3.5-4B | Qwen | 22,0 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 38,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur VITA-Bench indique qu’un agent parvient plus souvent à mener à terme des tâches multi-étapes avec outils, dans des scénarios simulés qui exigent coordination, suivi d’état et choix d’actions. La métrique repose sur un taux de réussite évalué par un système à fenêtre glissante fondé sur des rubriques, ce qui vise à mieux refléter l’accomplissement effectif d’une tâche que des réponses isolées. La prudence reste toutefois nécessaire, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement centralisée. Le niveau médian de 39 % et le meilleur score à 50 %, obtenu par Qwen3.5-397B-A17B, suggèrent un benchmark encore loin d’être saturé. Ses limites tiennent aussi à sa portée, centrée sur quelques domaines de services, à l’usage de l’anglais et à la nature simulée des environnements. Son accès public peut également accroître le risque de contamination au fil du temps.
Sources des scores : llm-stats.