RealWorldQA
RealWorldQA est un benchmark d’évaluation visuelle créé par xAI pour mesurer la compréhension de scènes réelles par des modèles multimodaux. Il se concentre sur des situations du quotidien, notamment des images issues de véhicules et d’autres contextes réels, associées à des questions…
RealWorldQA est un benchmark d’évaluation visuelle créé par xAI pour mesurer la compréhension de scènes réelles par des modèles multimodaux. Il se concentre sur des situations du quotidien, notamment des images issues de véhicules et d’autres contextes réels, associées à des questions ouvertes à réponse courte.
Le benchmark évalue surtout le raisonnement spatial, les relations entre objets et la capacité à interpréter correctement une scène naturelle à partir d’une image. Il sert ainsi de test ciblé pour apprécier si un modèle dépasse la simple reconnaissance d’objets et comprend l’organisation concrète d’un environnement visuel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | xAI |
| Capacités mesurées | raisonnement spatial, vision |
| Modalité | Multimodal |
| Type de questions | questions ouvertes à réponse courte sur image |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | environ 765 questions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7-Plus | Qwen | 86,9 % | 31 mai 2026 | Auto-déclaré |
| 2 | Seed 2.1 Pro | bytedance | 86,7 % | 24 juin 2026 | Auto-déclaré |
| 3 | Seed 2.1 Turbo | bytedance | 86,3 % | 24 juin 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 85,4 % | 31 mars 2026 | Auto-déclaré |
| 5 | Qwen3.6-35B-A3B | Qwen | 85,3 % | 16 avril 2026 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 85,1 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 84,1 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.6-27B | Qwen | 84,1 % | 21 avril 2026 | Auto-déclaré |
| 9 | Qwen3.5-27B | Qwen | 83,7 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3 VL 235B A22B Thinking | Qwen | 81,3 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 235B A22B Instruct | Qwen | 79,3 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 32B Instruct | Qwen | 79,0 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 32B Thinking | Qwen | 78,4 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen2-VL-72B-Instruct | Qwen | 77,8 % | 29 août 2024 | Auto-déclaré |
| 15 | Qwen3 VL 30B A3B Thinking | Qwen | 77,4 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 30B A3B Instruct | Qwen | 73,7 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 8B Thinking | Qwen | 73,5 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 4B Thinking | Qwen | 73,2 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 8B Instruct | Qwen | 71,5 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3 VL 4B Instruct | Qwen | 70,9 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 25 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 78,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur RealWorldQA indique qu’un modèle répond correctement à des questions visuelles simples mais ancrées dans le réel, où la position des objets, les interactions et le contexte de scène jouent un rôle important. La métrique utilisée, l’accuracy, rend les résultats faciles à comparer, mais elle ne décrit pas finement les types d’erreurs ni la robustesse selon les catégories de scènes.
La lecture du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Cela limite la rigueur comparative face à une évaluation entièrement indépendante et homogène. Le score médian de 78 % et le meilleur résultat, 87 % pour Qwen3.7-Plus, suggèrent un benchmark déjà bien maîtrisé par les modèles les plus performants, sans prouver une compréhension visuelle générale. Les limites principales tiennent à la taille réduite du jeu, à son périmètre anglophone, au risque de saturation et à une éventuelle contamination des données publiques. Le classement met surtout en évidence les modèles multimodaux solides sur le raisonnement spatial quotidien.
Sources des scores : llm-stats.