Langage & rédaction

Social IQa

Social IQa est un benchmark consacré au raisonnement de sens commun social. Créé par Maarten Sap et al. à l’Allen Institute for AI et à l’University of Washington, il évalue la capacité des modèles à interpréter des situations quotidiennes impliquant des interactions humaines.

Le test porte sur l’inférence de motivations, d’émotions, de réactions et d’intentions, avec des questions à choix multiples en anglais. Il sert à mesurer une forme d’intelligence sociale et de théorie de l’esprit, complémentaire des évaluations centrées sur les connaissances factuelles ou le raisonnement formel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Maarten Sap et al. (Allen Institute for AI / University of Washington)
Capacités mesurées	créativité, psychologie, raisonnement
Modalité	Texte
Type de questions	QCM à 3 choix
Métrique d'évaluation	accuracy
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais
Taille du jeu	environ 38 000 questions
Année de publication	2019
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Phi-3.5-MoE-instruct	Microsoft	78,0 %	23 août 2024	Auto-déclaré
2	Phi-3.5-mini-instruct	Microsoft	74,7 %	23 août 2024	Auto-déclaré
3	Phi 4 Mini	Microsoft	72,5 %	30 avril 2025	Auto-déclaré
4	Gemma 2 27B	Google	53,7 %	27 juin 2024	Auto-déclaré
5	Gemma 2 9B	Google	53,4 %	27 juin 2024	Auto-déclaré
6	Gemma 3n E4B	Google	50,0 %	26 juin 2025	Auto-déclaré
7	Gemma 3n E4B Instructed LiteRT Preview	Google	50,0 %	20 mai 2025	Auto-déclaré
8	Gemma 3n E2B	Google	48,8 %	26 juin 2025	Auto-déclaré
9	Gemma 3n E2B Instructed LiteRT (Preview)	Google	48,8 %	20 mai 2025	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 53,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Social IQa indique qu’un modèle identifie correctement les implications sociales probables d’une situation, par exemple ce qu’une personne peut ressentir, vouloir faire ou provoquer chez autrui. Le benchmark met donc en avant une compétence utile pour les assistants conversationnels, les agents et les systèmes amenés à interpréter des contextes humains implicites.

La rigueur de l’évaluation repose sur un jeu de test privé, dont les réponses ne sont pas divulguées, ce qui limite la simple mémorisation des sorties attendues. En revanche, les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des résultats indicatifs plutôt que comme une mesure entièrement auditée. Le classement montre un écart net entre la médiane de l’ensemble et le meilleur résultat observé, Phi-3.5-MoE-instruct à 78 %, signe que la maîtrise du raisonnement social reste différenciée entre modèles. Les limites tiennent aussi à la portée du benchmark, en anglais, centré sur des QCM, et potentiellement sensible à la contamination des données d’entraînement.

Sources des scores : llm-stats.

Social IQa

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench