Vision & multimodal

ERQA

ERQA est un benchmark de Google DeepMind consacré au raisonnement incarné, c’est-à-dire à la capacité d’un modèle à interpréter des situations visuelles liées aux interactions avec le monde physique. Il repose sur des questions visuelles à choix multiples, avec images et texte…

Le benchmark évalue notamment le raisonnement spatial, les trajectoires, les actions, l’estimation d’état et le raisonnement multi-vues. Il sert à mesurer si un modèle peut dépasser la simple reconnaissance visuelle pour raisonner sur des scènes, des déplacements et des conséquences d’actions.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google DeepMind
Capacités mesurées	raisonnement incarné (embodied), raisonnement spatial, de trajectoire, d'action, estimation d'état, raisonnement multi-vues, vision
Modalité	Multimodal
Type de questions	questions visuelles à choix multiples (réponse A-D), images et texte entrelacés
Métrique d'évaluation	exactitude (accuracy) sur QCM
Accès	Public
Licence	CC BY 4.0
Langues	anglais
Taille du jeu	400 questions à choix multiples
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	72,0 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Turbo	bytedance	71,3 %	24 juin 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	69,8 %	31 mai 2026	Auto-déclaré
4	GPT-5	OpenAI	65,7 %	7 août 2025	Auto-déclaré
5	Qwen3.6 Plus	Qwen	65,7 %	31 mars 2026	Auto-déclaré
6	Qwen3.5-35B-A3B	Qwen	64,8 %	24 février 2026	Auto-déclaré
7	Muse Spark	Meta	64,7 %	8 avril 2026	Auto-déclaré
8	o3	OpenAI	64,0 %	16 avril 2025	Auto-déclaré
9	Qwen3.6-27B	Qwen	62,5 %	21 avril 2026	Auto-déclaré
10	Qwen3.5-122B-A10B	Qwen	62,0 %	24 février 2026	Auto-déclaré
11	Qwen3.5-27B	Qwen	60,5 %	24 février 2026	Auto-déclaré
12	Qwen3 VL 235B A22B Thinking	Qwen	52,5 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 32B Thinking	Qwen	52,3 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 235B A22B Instruct	Qwen	51,3 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 32B Instruct	Qwen	48,8 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 4B Thinking	Qwen	47,3 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 8B Thinking	Qwen	46,8 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 8B Instruct	Qwen	45,8 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 30B A3B Thinking	Qwen	45,3 %	22 septembre 2025	Auto-déclaré
20	Qwen3 VL 30B A3B Instruct	Qwen	43,0 %	22 septembre 2025	Auto-déclaré

Classement établi sur 22 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 56,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ERQA indique une meilleure capacité à combiner vision, compréhension spatiale et raisonnement sur l’action dans des contextes physiques. Comme la métrique repose sur l’exactitude à des questions à choix multiples, la comparaison entre modèles est directe, mais elle ne capture pas toute la richesse d’un raisonnement ouvert ou interactif. Dans la base, 22 modèles sont évalués, avec un score médian de 56% et un meilleur résultat de 72% pour Seed 2.1 Pro (bytedance), ce qui suggère une marge de progression notable plutôt qu’une saturation complète du benchmark. La fiabilité doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites principales tiennent à la portée du jeu, limité à 400 questions en anglais, au format QCM, ainsi qu’au risque général de contamination dès lors qu’un benchmark public devient connu. Le classement met surtout en évidence les modèles les plus solides sur le raisonnement visuel incarné, sans constituer une mesure globale de l’intelligence ou de l’aptitude robotique réelle.

Sources des scores : llm-stats.

ERQA

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench