Vision & multimodal

RealWorldQA

RealWorldQA est un benchmark d’évaluation visuelle créé par xAI pour mesurer la compréhension de scènes réelles par des modèles multimodaux. Il se concentre sur des situations du quotidien, notamment des images issues de véhicules et d’autres contextes réels, associées à des questions…

Le benchmark évalue surtout le raisonnement spatial, les relations entre objets et la capacité à interpréter correctement une scène naturelle à partir d’une image. Il sert ainsi de test ciblé pour apprécier si un modèle dépasse la simple reconnaissance d’objets et comprend l’organisation concrète d’un environnement visuel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	xAI
Capacités mesurées	raisonnement spatial, vision
Modalité	Multimodal
Type de questions	questions ouvertes à réponse courte sur image
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	environ 765 questions
Année de publication	2024
Ressources	Site / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7-Plus	Qwen	86,9 %	31 mai 2026	Auto-déclaré
2	Seed 2.1 Pro	bytedance	86,7 %	24 juin 2026	Auto-déclaré
3	Seed 2.1 Turbo	bytedance	86,3 %	24 juin 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	85,4 %	31 mars 2026	Auto-déclaré
5	Qwen3.6-35B-A3B	Qwen	85,3 %	16 avril 2026	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	85,1 %	24 février 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	84,1 %	24 février 2026	Auto-déclaré
8	Qwen3.6-27B	Qwen	84,1 %	21 avril 2026	Auto-déclaré
9	Qwen3.5-27B	Qwen	83,7 %	24 février 2026	Auto-déclaré
10	Qwen3 VL 235B A22B Thinking	Qwen	81,3 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 235B A22B Instruct	Qwen	79,3 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 32B Instruct	Qwen	79,0 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 32B Thinking	Qwen	78,4 %	22 septembre 2025	Auto-déclaré
14	Qwen2-VL-72B-Instruct	Qwen	77,8 %	29 août 2024	Auto-déclaré
15	Qwen3 VL 30B A3B Thinking	Qwen	77,4 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 30B A3B Instruct	Qwen	73,7 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 8B Thinking	Qwen	73,5 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 4B Thinking	Qwen	73,2 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 8B Instruct	Qwen	71,5 %	22 septembre 2025	Auto-déclaré
20	Qwen3 VL 4B Instruct	Qwen	70,9 %	22 septembre 2025	Auto-déclaré

Classement établi sur 25 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 78,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur RealWorldQA indique qu’un modèle répond correctement à des questions visuelles simples mais ancrées dans le réel, où la position des objets, les interactions et le contexte de scène jouent un rôle important. La métrique utilisée, l’accuracy, rend les résultats faciles à comparer, mais elle ne décrit pas finement les types d’erreurs ni la robustesse selon les catégories de scènes.

La lecture du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Cela limite la rigueur comparative face à une évaluation entièrement indépendante et homogène. Le score médian de 78 % et le meilleur résultat, 87 % pour Qwen3.7-Plus, suggèrent un benchmark déjà bien maîtrisé par les modèles les plus performants, sans prouver une compréhension visuelle générale. Les limites principales tiennent à la taille réduite du jeu, à son périmètre anglophone, au risque de saturation et à une éventuelle contamination des données publiques. Le classement met surtout en évidence les modèles multimodaux solides sur le raisonnement spatial quotidien.

Sources des scores : llm-stats.

RealWorldQA

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench