LingoQA

LingoQA est un benchmark public conçu par Wayve pour évaluer la compréhension visuelle-linguistique appliquée à la conduite autonome. Il porte sur des séquences vidéo de conduite et demande aux modèles de répondre librement à des questions de type VQA, en mobilisant perception,…

LingoQA est un benchmark public conçu par Wayve pour évaluer la compréhension visuelle-linguistique appliquée à la conduite autonome. Il porte sur des séquences vidéo de conduite et demande aux modèles de répondre librement à des questions de type VQA, en mobilisant perception, raisonnement spatial et capacité de justification.

Le test sert à mesurer la capacité d’un modèle multimodal à relier ce qui est vu dans une scène routière à une réponse en langage naturel. Il cible donc un usage plus spécialisé que les benchmarks généralistes, avec un accent sur l’interprétation de situations dynamiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkWayve
Capacités mesuréesCompréhension visuelle-linguistique pour la conduite autonome : perception, raisonnement et justification à partir de vidéos de conduite
ModalitéMultimodal
Type de questionsVQA (réponse libre sur séquences vidéo de conduite)
Métrique d'évaluationLingo-Judge (classifieur de véracité, ~0.95 de corrélation de Spearman avec l'humain)
AccèsPublic
Languesanglais
Taille du jeu28 000 scénarios vidéo, 419 000 annotations QA
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7-PlusQwen83,4 %31 mai 2026Auto-déclaré
2Qwen3.5-27BQwen82,0 %24 février 2026Auto-déclaré
3Qwen3.5-122B-A10BQwen80,8 %24 février 2026Auto-déclaré
4Qwen3.5-35B-A3BQwen79,2 %24 février 2026Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LingoQA indique qu’un modèle répond de façon jugée véridique à des questions ouvertes sur des vidéos de conduite, ce qui suggère une bonne intégration entre perception visuelle, compréhension du langage et raisonnement contextuel. L’évaluation repose sur Lingo-Judge, un classifieur de véracité dont la corrélation de Spearman avec les jugements humains est d’environ 0,95, ce qui renforce la cohérence du protocole. La lecture du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le meilleur résultat observé, Qwen3.7-Plus à 83 %, reste proche de la médiane de l’ensemble, située à 81 %, ce qui suggère un écart limité entre les modèles évalués. Cette proximité peut signaler une difficulté à départager finement les systèmes, voire un début de saturation sur ce périmètre. Les limites principales tiennent à la portée spécialisée du benchmark, à son usage en anglais et au risque de contamination lié à son accès public.


Sources des scores : llm-stats.