ERQA
ERQA est un benchmark de Google DeepMind consacré au raisonnement incarné, c’est-à-dire à la capacité d’un modèle à interpréter des situations visuelles liées aux interactions avec le monde physique. Il repose sur des questions visuelles à choix multiples, avec images et texte…
ERQA est un benchmark de Google DeepMind consacré au raisonnement incarné, c’est-à-dire à la capacité d’un modèle à interpréter des situations visuelles liées aux interactions avec le monde physique. Il repose sur des questions visuelles à choix multiples, avec images et texte entrelacés, formulées en anglais.
Le benchmark évalue notamment le raisonnement spatial, les trajectoires, les actions, l’estimation d’état et le raisonnement multi-vues. Il sert à mesurer si un modèle peut dépasser la simple reconnaissance visuelle pour raisonner sur des scènes, des déplacements et des conséquences d’actions.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google DeepMind |
| Capacités mesurées | raisonnement incarné (embodied), raisonnement spatial, de trajectoire, d'action, estimation d'état, raisonnement multi-vues, vision |
| Modalité | Multimodal |
| Type de questions | questions visuelles à choix multiples (réponse A-D), images et texte entrelacés |
| Métrique d'évaluation | exactitude (accuracy) sur QCM |
| Accès | Public |
| Licence | CC BY 4.0 |
| Langues | anglais |
| Taille du jeu | 400 questions à choix multiples |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 72,0 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Turbo | bytedance | 71,3 % | 24 juin 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 69,8 % | 31 mai 2026 | Auto-déclaré |
| 4 | GPT-5 | OpenAI | 65,7 % | 7 août 2025 | Auto-déclaré |
| 5 | Qwen3.6 Plus | Qwen | 65,7 % | 31 mars 2026 | Auto-déclaré |
| 6 | Qwen3.5-35B-A3B | Qwen | 64,8 % | 24 février 2026 | Auto-déclaré |
| 7 | Muse Spark | Meta | 64,7 % | 8 avril 2026 | Auto-déclaré |
| 8 | o3 | OpenAI | 64,0 % | 16 avril 2025 | Auto-déclaré |
| 9 | Qwen3.6-27B | Qwen | 62,5 % | 21 avril 2026 | Auto-déclaré |
| 10 | Qwen3.5-122B-A10B | Qwen | 62,0 % | 24 février 2026 | Auto-déclaré |
| 11 | Qwen3.5-27B | Qwen | 60,5 % | 24 février 2026 | Auto-déclaré |
| 12 | Qwen3 VL 235B A22B Thinking | Qwen | 52,5 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 32B Thinking | Qwen | 52,3 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 235B A22B Instruct | Qwen | 51,3 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 32B Instruct | Qwen | 48,8 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 4B Thinking | Qwen | 47,3 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 8B Thinking | Qwen | 46,8 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 8B Instruct | Qwen | 45,8 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 30B A3B Thinking | Qwen | 45,3 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3 VL 30B A3B Instruct | Qwen | 43,0 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 22 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 56,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ERQA indique une meilleure capacité à combiner vision, compréhension spatiale et raisonnement sur l’action dans des contextes physiques. Comme la métrique repose sur l’exactitude à des questions à choix multiples, la comparaison entre modèles est directe, mais elle ne capture pas toute la richesse d’un raisonnement ouvert ou interactif. Dans la base, 22 modèles sont évalués, avec un score médian de 56% et un meilleur résultat de 72% pour Seed 2.1 Pro (bytedance), ce qui suggère une marge de progression notable plutôt qu’une saturation complète du benchmark. La fiabilité doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites principales tiennent à la portée du jeu, limité à 400 questions en anglais, au format QCM, ainsi qu’au risque général de contamination dès lors qu’un benchmark public devient connu. Le classement met surtout en évidence les modèles les plus solides sur le raisonnement visuel incarné, sans constituer une mesure globale de l’intelligence ou de l’aptitude robotique réelle.
Sources des scores : llm-stats.