ERQA

ERQA est un benchmark de Google DeepMind consacré au raisonnement incarné, c’est-à-dire à la capacité d’un modèle à interpréter des situations visuelles liées aux interactions avec le monde physique. Il repose sur des questions visuelles à choix multiples, avec images et texte…

ERQA est un benchmark de Google DeepMind consacré au raisonnement incarné, c’est-à-dire à la capacité d’un modèle à interpréter des situations visuelles liées aux interactions avec le monde physique. Il repose sur des questions visuelles à choix multiples, avec images et texte entrelacés, formulées en anglais.

Le benchmark évalue notamment le raisonnement spatial, les trajectoires, les actions, l’estimation d’état et le raisonnement multi-vues. Il sert à mesurer si un modèle peut dépasser la simple reconnaissance visuelle pour raisonner sur des scènes, des déplacements et des conséquences d’actions.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle DeepMind
Capacités mesuréesraisonnement incarné (embodied), raisonnement spatial, de trajectoire, d'action, estimation d'état, raisonnement multi-vues, vision
ModalitéMultimodal
Type de questionsquestions visuelles à choix multiples (réponse A-D), images et texte entrelacés
Métrique d'évaluationexactitude (accuracy) sur QCM
AccèsPublic
LicenceCC BY 4.0
Languesanglais
Taille du jeu400 questions à choix multiples
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance72,0 %24 juin 2026Auto-déclaré
2Seed 2.1 Turbobytedance71,3 %24 juin 2026Auto-déclaré
3Qwen3.7-PlusQwen69,8 %31 mai 2026Auto-déclaré
4GPT-5OpenAI65,7 %7 août 2025Auto-déclaré
5Qwen3.6 PlusQwen65,7 %31 mars 2026Auto-déclaré
6Qwen3.5-35B-A3BQwen64,8 %24 février 2026Auto-déclaré
7Muse SparkMeta64,7 %8 avril 2026Auto-déclaré
8o3OpenAI64,0 %16 avril 2025Auto-déclaré
9Qwen3.6-27BQwen62,5 %21 avril 2026Auto-déclaré
10Qwen3.5-122B-A10BQwen62,0 %24 février 2026Auto-déclaré
11Qwen3.5-27BQwen60,5 %24 février 2026Auto-déclaré
12Qwen3 VL 235B A22B ThinkingQwen52,5 %22 septembre 2025Auto-déclaré
13Qwen3 VL 32B ThinkingQwen52,3 %22 septembre 2025Auto-déclaré
14Qwen3 VL 235B A22B InstructQwen51,3 %22 septembre 2025Auto-déclaré
15Qwen3 VL 32B InstructQwen48,8 %22 septembre 2025Auto-déclaré
16Qwen3 VL 4B ThinkingQwen47,3 %22 septembre 2025Auto-déclaré
17Qwen3 VL 8B ThinkingQwen46,8 %22 septembre 2025Auto-déclaré
18Qwen3 VL 8B InstructQwen45,8 %22 septembre 2025Auto-déclaré
19Qwen3 VL 30B A3B ThinkingQwen45,3 %22 septembre 2025Auto-déclaré
20Qwen3 VL 30B A3B InstructQwen43,0 %22 septembre 2025Auto-déclaré

Classement établi sur 22 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 56,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ERQA indique une meilleure capacité à combiner vision, compréhension spatiale et raisonnement sur l’action dans des contextes physiques. Comme la métrique repose sur l’exactitude à des questions à choix multiples, la comparaison entre modèles est directe, mais elle ne capture pas toute la richesse d’un raisonnement ouvert ou interactif. Dans la base, 22 modèles sont évalués, avec un score médian de 56% et un meilleur résultat de 72% pour Seed 2.1 Pro (bytedance), ce qui suggère une marge de progression notable plutôt qu’une saturation complète du benchmark. La fiabilité doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites principales tiennent à la portée du jeu, limité à 400 questions en anglais, au format QCM, ainsi qu’au risque général de contamination dès lors qu’un benchmark public devient connu. Le classement met surtout en évidence les modèles les plus solides sur le raisonnement visuel incarné, sans constituer une mesure globale de l’intelligence ou de l’aptitude robotique réelle.


Sources des scores : llm-stats.