Social IQa

Social IQa est un benchmark consacré au raisonnement de sens commun social. Créé par Maarten Sap et al. à l’Allen Institute for AI et à l’University of Washington, il évalue la capacité des modèles à interpréter des situations quotidiennes impliquant des interactions humaines.

Social IQa est un benchmark consacré au raisonnement de sens commun social. Créé par Maarten Sap et al. à l’Allen Institute for AI et à l’University of Washington, il évalue la capacité des modèles à interpréter des situations quotidiennes impliquant des interactions humaines.

Le test porte sur l’inférence de motivations, d’émotions, de réactions et d’intentions, avec des questions à choix multiples en anglais. Il sert à mesurer une forme d’intelligence sociale et de théorie de l’esprit, complémentaire des évaluations centrées sur les connaissances factuelles ou le raisonnement formel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMaarten Sap et al. (Allen Institute for AI / University of Washington)
Capacités mesuréescréativité, psychologie, raisonnement
ModalitéTexte
Type de questionsQCM à 3 choix
Métrique d'évaluationaccuracy
AccèsJeu de test privé (réponses non divulguées)
Languesanglais
Taille du jeuenviron 38 000 questions
Année de publication2019
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Phi-3.5-MoE-instructMicrosoft78,0 %23 août 2024Auto-déclaré
2Phi-3.5-mini-instructMicrosoft74,7 %23 août 2024Auto-déclaré
3Phi 4 MiniMicrosoft72,5 %30 avril 2025Auto-déclaré
4Gemma 2 27BGoogle53,7 %27 juin 2024Auto-déclaré
5Gemma 2 9BGoogle53,4 %27 juin 2024Auto-déclaré
6Gemma 3n E4BGoogle50,0 %26 juin 2025Auto-déclaré
7Gemma 3n E4B Instructed LiteRT PreviewGoogle50,0 %20 mai 2025Auto-déclaré
8Gemma 3n E2BGoogle48,8 %26 juin 2025Auto-déclaré
9Gemma 3n E2B Instructed LiteRT (Preview)Google48,8 %20 mai 2025Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 53,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Social IQa indique qu’un modèle identifie correctement les implications sociales probables d’une situation, par exemple ce qu’une personne peut ressentir, vouloir faire ou provoquer chez autrui. Le benchmark met donc en avant une compétence utile pour les assistants conversationnels, les agents et les systèmes amenés à interpréter des contextes humains implicites.

La rigueur de l’évaluation repose sur un jeu de test privé, dont les réponses ne sont pas divulguées, ce qui limite la simple mémorisation des sorties attendues. En revanche, les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des résultats indicatifs plutôt que comme une mesure entièrement auditée. Le classement montre un écart net entre la médiane de l’ensemble et le meilleur résultat observé, Phi-3.5-MoE-instruct à 78 %, signe que la maîtrise du raisonnement social reste différenciée entre modèles. Les limites tiennent aussi à la portée du benchmark, en anglais, centré sur des QCM, et potentiellement sensible à la contamination des données d’entraînement.


Sources des scores : llm-stats.