Global PIQA

Global PIQA est un benchmark multilingue de raisonnement de bon sens centré sur les interactions physiques. Il prolonge le format PIQA, où un modèle doit choisir la solution correcte à une situation concrète du quotidien, en l’adaptant à un grand nombre de langues et de contextes…

Global PIQA est un benchmark multilingue de raisonnement de bon sens centré sur les interactions physiques. Il prolonge le format PIQA, où un modèle doit choisir la solution correcte à une situation concrète du quotidien, en l’adaptant à un grand nombre de langues et de contextes culturels.

Créé par un effort participatif mené par Tyler A. Chang, Catherine Arnett et leurs coauteurs, il vise à tester la compréhension du monde physique au-delà des seuls environnements anglophones. Le benchmark sert ainsi à comparer la robustesse des modèles face à des référents culturels locaux et à des langues aux ressources variables.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEffort participatif multilingue mené par Tyler A. Chang, Catherine Arnett et al. (335+ chercheurs de 65+ pays)
Capacités mesuréesRaisonnement de bon sens sur les interactions physiques, dans un cadre multilingue et multiculturel (>50% d'exemples à référents culturels locaux)
ModalitéTexte
Type de questionsChoix multiple (bon sens physique, format PIQA : choisir la solution correcte)
Métrique d'évaluationAccuracy (avec écart de performance entre langues à haute et basse ressource)
AccèsPublic
Langues100+ langues (116 variétés en v0.1, 141 en v2 ; 14 à 19 familles, 23 à 24 systèmes d'écriture)
Taille du jeuNombre total d'exemples non précisé dans le papier ; splits parallèle et non-parallèle
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 3 ProGoogle93,4 %18 novembre 2025Auto-déclaré
2Gemini 3 FlashGoogle92,8 %17 décembre 2025Auto-déclaré
3Qwen3.7 MaxQwen91,4 %19 mai 2026Auto-déclaré
4Qwen3.7-PlusQwen90,3 %31 mai 2026Auto-déclaré
5Qwen3.5-397B-A17BQwen89,8 %16 février 2026Auto-déclaré
6Qwen3.6 PlusQwen89,8 %31 mars 2026Auto-déclaré
7Qwen3.5-122B-A10BQwen88,4 %24 février 2026Auto-déclaré
8Qwen3.5-27BQwen87,5 %24 février 2026Auto-déclaré
9Qwen3.5-35B-A3BQwen86,6 %24 février 2026Auto-déclaré
10Qwen3.5-9BQwen83,2 %2 mars 2026Auto-déclaré
11Qwen3.5-4BQwen78,9 %2 mars 2026Auto-déclaré
12Qwen3.5-2BQwen69,3 %2 mars 2026Auto-déclaré
13Qwen3.5-0.8BQwen59,4 %2 mars 2026Auto-déclaré

Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 88,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Global PIQA indique qu’un modèle sait généralement sélectionner l’option la plus plausible dans des scénarios impliquant des objets, des actions et des contraintes physiques ordinaires, y compris dans des contextes multiculturels. Le classement disponible montre un niveau global déjà élevé, avec une médiane à 88% et un meilleur score de 93% pour Gemini 3 Pro, ce qui suggère une possible saturation partielle pour les modèles les plus performants. L’interprétation doit toutefois rester prudente: les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite et contrôlée. Le benchmark conserve aussi des limites classiques, notamment le risque de contamination des données d’évaluation, l’absence de taille totale précisée dans le papier, et une portée centrée sur le bon sens physique plutôt que sur le raisonnement général. Son intérêt principal tient à l’écart de performance entre langues à haute et basse ressource, qui met en évidence les inégalités persistantes de couverture linguistique et culturelle.


Sources des scores : llm-stats.