RealWorldQA

RealWorldQA est un benchmark d’évaluation visuelle créé par xAI pour mesurer la compréhension de scènes réelles par des modèles multimodaux. Il se concentre sur des situations du quotidien, notamment des images issues de véhicules et d’autres contextes réels, associées à des questions…

RealWorldQA est un benchmark d’évaluation visuelle créé par xAI pour mesurer la compréhension de scènes réelles par des modèles multimodaux. Il se concentre sur des situations du quotidien, notamment des images issues de véhicules et d’autres contextes réels, associées à des questions ouvertes à réponse courte.

Le benchmark évalue surtout le raisonnement spatial, les relations entre objets et la capacité à interpréter correctement une scène naturelle à partir d’une image. Il sert ainsi de test ciblé pour apprécier si un modèle dépasse la simple reconnaissance d’objets et comprend l’organisation concrète d’un environnement visuel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkxAI
Capacités mesuréesraisonnement spatial, vision
ModalitéMultimodal
Type de questionsquestions ouvertes à réponse courte sur image
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeuenviron 765 questions
Année de publication2024
RessourcesSite / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7-PlusQwen86,9 %31 mai 2026Auto-déclaré
2Seed 2.1 Probytedance86,7 %24 juin 2026Auto-déclaré
3Seed 2.1 Turbobytedance86,3 %24 juin 2026Auto-déclaré
4Qwen3.6 PlusQwen85,4 %31 mars 2026Auto-déclaré
5Qwen3.6-35B-A3BQwen85,3 %16 avril 2026Auto-déclaré
6Qwen3.5-122B-A10BQwen85,1 %24 février 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen84,1 %24 février 2026Auto-déclaré
8Qwen3.6-27BQwen84,1 %21 avril 2026Auto-déclaré
9Qwen3.5-27BQwen83,7 %24 février 2026Auto-déclaré
10Qwen3 VL 235B A22B ThinkingQwen81,3 %22 septembre 2025Auto-déclaré
11Qwen3 VL 235B A22B InstructQwen79,3 %22 septembre 2025Auto-déclaré
12Qwen3 VL 32B InstructQwen79,0 %22 septembre 2025Auto-déclaré
13Qwen3 VL 32B ThinkingQwen78,4 %22 septembre 2025Auto-déclaré
14Qwen2-VL-72B-InstructQwen77,8 %29 août 2024Auto-déclaré
15Qwen3 VL 30B A3B ThinkingQwen77,4 %22 septembre 2025Auto-déclaré
16Qwen3 VL 30B A3B InstructQwen73,7 %22 septembre 2025Auto-déclaré
17Qwen3 VL 8B ThinkingQwen73,5 %22 septembre 2025Auto-déclaré
18Qwen3 VL 4B ThinkingQwen73,2 %22 septembre 2025Auto-déclaré
19Qwen3 VL 8B InstructQwen71,5 %22 septembre 2025Auto-déclaré
20Qwen3 VL 4B InstructQwen70,9 %22 septembre 2025Auto-déclaré

Classement établi sur 25 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 78,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur RealWorldQA indique qu’un modèle répond correctement à des questions visuelles simples mais ancrées dans le réel, où la position des objets, les interactions et le contexte de scène jouent un rôle important. La métrique utilisée, l’accuracy, rend les résultats faciles à comparer, mais elle ne décrit pas finement les types d’erreurs ni la robustesse selon les catégories de scènes.

La lecture du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Cela limite la rigueur comparative face à une évaluation entièrement indépendante et homogène. Le score médian de 78 % et le meilleur résultat, 87 % pour Qwen3.7-Plus, suggèrent un benchmark déjà bien maîtrisé par les modèles les plus performants, sans prouver une compréhension visuelle générale. Les limites principales tiennent à la taille réduite du jeu, à son périmètre anglophone, au risque de saturation et à une éventuelle contamination des données publiques. Le classement met surtout en évidence les modèles multimodaux solides sur le raisonnement spatial quotidien.


Sources des scores : llm-stats.