Vision & multimodal

LingoQA

LingoQA est un benchmark public conçu par Wayve pour évaluer la compréhension visuelle-linguistique appliquée à la conduite autonome. Il porte sur des séquences vidéo de conduite et demande aux modèles de répondre librement à des questions de type VQA, en mobilisant perception,…

Le test sert à mesurer la capacité d’un modèle multimodal à relier ce qui est vu dans une scène routière à une réponse en langage naturel. Il cible donc un usage plus spécialisé que les benchmarks généralistes, avec un accent sur l’interprétation de situations dynamiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Wayve
Capacités mesurées	Compréhension visuelle-linguistique pour la conduite autonome : perception, raisonnement et justification à partir de vidéos de conduite
Modalité	Multimodal
Type de questions	VQA (réponse libre sur séquences vidéo de conduite)
Métrique d'évaluation	Lingo-Judge (classifieur de véracité, ~0.95 de corrélation de Spearman avec l'humain)
Accès	Public
Langues	anglais
Taille du jeu	28 000 scénarios vidéo, 419 000 annotations QA
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7-Plus	Qwen	83,4 %	31 mai 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	82,0 %	24 février 2026	Auto-déclaré
3	Qwen3.5-122B-A10B	Qwen	80,8 %	24 février 2026	Auto-déclaré
4	Qwen3.5-35B-A3B	Qwen	79,2 %	24 février 2026	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LingoQA indique qu’un modèle répond de façon jugée véridique à des questions ouvertes sur des vidéos de conduite, ce qui suggère une bonne intégration entre perception visuelle, compréhension du langage et raisonnement contextuel. L’évaluation repose sur Lingo-Judge, un classifieur de véracité dont la corrélation de Spearman avec les jugements humains est d’environ 0,95, ce qui renforce la cohérence du protocole. La lecture du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le meilleur résultat observé, Qwen3.7-Plus à 83 %, reste proche de la médiane de l’ensemble, située à 81 %, ce qui suggère un écart limité entre les modèles évalués. Cette proximité peut signaler une difficulté à départager finement les systèmes, voire un début de saturation sur ce périmètre. Les limites principales tiennent à la portée spécialisée du benchmark, à son usage en anglais et au risque de contamination lié à son accès public.

Sources des scores : llm-stats.

LingoQA

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench