LingoQA
LingoQA est un benchmark public conçu par Wayve pour évaluer la compréhension visuelle-linguistique appliquée à la conduite autonome. Il porte sur des séquences vidéo de conduite et demande aux modèles de répondre librement à des questions de type VQA, en mobilisant perception,…
LingoQA est un benchmark public conçu par Wayve pour évaluer la compréhension visuelle-linguistique appliquée à la conduite autonome. Il porte sur des séquences vidéo de conduite et demande aux modèles de répondre librement à des questions de type VQA, en mobilisant perception, raisonnement spatial et capacité de justification.
Le test sert à mesurer la capacité d’un modèle multimodal à relier ce qui est vu dans une scène routière à une réponse en langage naturel. Il cible donc un usage plus spécialisé que les benchmarks généralistes, avec un accent sur l’interprétation de situations dynamiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Wayve |
| Capacités mesurées | Compréhension visuelle-linguistique pour la conduite autonome : perception, raisonnement et justification à partir de vidéos de conduite |
| Modalité | Multimodal |
| Type de questions | VQA (réponse libre sur séquences vidéo de conduite) |
| Métrique d'évaluation | Lingo-Judge (classifieur de véracité, ~0.95 de corrélation de Spearman avec l'humain) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 28 000 scénarios vidéo, 419 000 annotations QA |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7-Plus | Qwen | 83,4 % | 31 mai 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 82,0 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-122B-A10B | Qwen | 80,8 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-35B-A3B | Qwen | 79,2 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LingoQA indique qu’un modèle répond de façon jugée véridique à des questions ouvertes sur des vidéos de conduite, ce qui suggère une bonne intégration entre perception visuelle, compréhension du langage et raisonnement contextuel. L’évaluation repose sur Lingo-Judge, un classifieur de véracité dont la corrélation de Spearman avec les jugements humains est d’environ 0,95, ce qui renforce la cohérence du protocole. La lecture du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le meilleur résultat observé, Qwen3.7-Plus à 83 %, reste proche de la médiane de l’ensemble, située à 81 %, ce qui suggère un écart limité entre les modèles évalués. Cette proximité peut signaler une difficulté à départager finement les systèmes, voire un début de saturation sur ce périmètre. Les limites principales tiennent à la portée spécialisée du benchmark, à son usage en anglais et au risque de contamination lié à son accès public.
Sources des scores : llm-stats.