PIQA
PIQA est un benchmark de raisonnement de sens commun physique créé par Yonatan Bisk et al. Il évalue la capacité d’un modèle à choisir la solution la plus plausible face à une situation concrète impliquant des interactions avec le monde matériel.
PIQA est un benchmark de raisonnement de sens commun physique créé par Yonatan Bisk et al. Il évalue la capacité d’un modèle à choisir la solution la plus plausible face à une situation concrète impliquant des interactions avec le monde matériel.
Le test s’inscrit dans l’évaluation des modèles de langage en ciblant un savoir pratique souvent implicite, lié aux objets, aux usages et aux contraintes physiques du quotidien. Ses questions en anglais reposent sur des situations courantes, avec un accent sur des solutions atypiques inspirées d’instructables.com.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Yonatan Bisk et al. |
| Capacités mesurées | généraliste, physique, raisonnement |
| Modalité | Texte |
| Type de questions | QCM à deux choix |
| Métrique d'évaluation | accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | environ 21 000 questions |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Phi-3.5-MoE-instruct | Microsoft | 88,6 % | 23 août 2024 | Auto-déclaré |
| 2 | Hermes 3 70B | Nous Research | 84,4 % | 15 août 2024 | Auto-déclaré |
| 3 | Gemma 2 27B | 83,2 % | 27 juin 2024 | Auto-déclaré | |
| 4 | Gemma 2 9B | 81,7 % | 27 juin 2024 | Auto-déclaré | |
| 5 | Gemma 3n E4B | 81,0 % | 26 juin 2025 | Auto-déclaré | |
| 6 | Gemma 3n E4B Instructed LiteRT Preview | 81,0 % | 20 mai 2025 | Auto-déclaré | |
| 7 | Phi-3.5-mini-instruct | Microsoft | 81,0 % | 23 août 2024 | Auto-déclaré |
| 8 | Gemma 3n E2B | 78,9 % | 26 juin 2025 | Auto-déclaré | |
| 9 | Gemma 3n E2B Instructed LiteRT (Preview) | 78,9 % | 20 mai 2025 | Auto-déclaré | |
| 10 | Phi 4 Mini | Microsoft | 77,6 % | 30 avril 2025 | Auto-déclaré |
| 11 | ERNIE 4.5 | Baidu | 55,2 % | 25 juin 2025 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 81,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur PIQA indique qu’un modèle identifie généralement la réponse physiquement la plus cohérente dans des problèmes de sens commun matériel. Cela suggère une bonne maîtrise de connaissances pratiques, mais ne prouve pas une compréhension physique profonde ni une capacité robuste à agir dans le monde réel. Dans la base observée, le score médian atteint 81 %, tandis que Phi-3.5-MoE-instruct (Microsoft) obtient le meilleur résultat avec 89 %, ce qui montre un classement resserré à haut niveau plutôt qu’un écart massif entre systèmes. La rigueur de l’évaluation bénéficie d’un jeu de test privé dont les réponses ne sont pas divulguées, mais les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité indépendante. Les principales limites concernent la portée du benchmark, restreinte à l’anglais et à des QCM à deux choix, le risque de contamination des données d’entraînement, ainsi qu’une possible saturation lorsque les meilleurs modèles se rapprochent fortement du plafond mesuré.
Sources des scores : llm-stats.