Social IQa
Social IQa est un benchmark consacré au raisonnement de sens commun social. Créé par Maarten Sap et al. à l’Allen Institute for AI et à l’University of Washington, il évalue la capacité des modèles à interpréter des situations quotidiennes impliquant des interactions humaines.
Social IQa est un benchmark consacré au raisonnement de sens commun social. Créé par Maarten Sap et al. à l’Allen Institute for AI et à l’University of Washington, il évalue la capacité des modèles à interpréter des situations quotidiennes impliquant des interactions humaines.
Le test porte sur l’inférence de motivations, d’émotions, de réactions et d’intentions, avec des questions à choix multiples en anglais. Il sert à mesurer une forme d’intelligence sociale et de théorie de l’esprit, complémentaire des évaluations centrées sur les connaissances factuelles ou le raisonnement formel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Maarten Sap et al. (Allen Institute for AI / University of Washington) |
| Capacités mesurées | créativité, psychologie, raisonnement |
| Modalité | Texte |
| Type de questions | QCM à 3 choix |
| Métrique d'évaluation | accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | environ 38 000 questions |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Phi-3.5-MoE-instruct | Microsoft | 78,0 % | 23 août 2024 | Auto-déclaré |
| 2 | Phi-3.5-mini-instruct | Microsoft | 74,7 % | 23 août 2024 | Auto-déclaré |
| 3 | Phi 4 Mini | Microsoft | 72,5 % | 30 avril 2025 | Auto-déclaré |
| 4 | Gemma 2 27B | 53,7 % | 27 juin 2024 | Auto-déclaré | |
| 5 | Gemma 2 9B | 53,4 % | 27 juin 2024 | Auto-déclaré | |
| 6 | Gemma 3n E4B | 50,0 % | 26 juin 2025 | Auto-déclaré | |
| 7 | Gemma 3n E4B Instructed LiteRT Preview | 50,0 % | 20 mai 2025 | Auto-déclaré | |
| 8 | Gemma 3n E2B | 48,8 % | 26 juin 2025 | Auto-déclaré | |
| 9 | Gemma 3n E2B Instructed LiteRT (Preview) | 48,8 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 53,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Social IQa indique qu’un modèle identifie correctement les implications sociales probables d’une situation, par exemple ce qu’une personne peut ressentir, vouloir faire ou provoquer chez autrui. Le benchmark met donc en avant une compétence utile pour les assistants conversationnels, les agents et les systèmes amenés à interpréter des contextes humains implicites.
La rigueur de l’évaluation repose sur un jeu de test privé, dont les réponses ne sont pas divulguées, ce qui limite la simple mémorisation des sorties attendues. En revanche, les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des résultats indicatifs plutôt que comme une mesure entièrement auditée. Le classement montre un écart net entre la médiane de l’ensemble et le meilleur résultat observé, Phi-3.5-MoE-instruct à 78 %, signe que la maîtrise du raisonnement social reste différenciée entre modèles. Les limites tiennent aussi à la portée du benchmark, en anglais, centré sur des QCM, et potentiellement sensible à la contamination des données d’entraînement.
Sources des scores : llm-stats.