Global PIQA
Global PIQA est un benchmark multilingue de raisonnement de bon sens centré sur les interactions physiques. Il prolonge le format PIQA, où un modèle doit choisir la solution correcte à une situation concrète du quotidien, en l’adaptant à un grand nombre de langues et de contextes…
Global PIQA est un benchmark multilingue de raisonnement de bon sens centré sur les interactions physiques. Il prolonge le format PIQA, où un modèle doit choisir la solution correcte à une situation concrète du quotidien, en l’adaptant à un grand nombre de langues et de contextes culturels.
Créé par un effort participatif mené par Tyler A. Chang, Catherine Arnett et leurs coauteurs, il vise à tester la compréhension du monde physique au-delà des seuls environnements anglophones. Le benchmark sert ainsi à comparer la robustesse des modèles face à des référents culturels locaux et à des langues aux ressources variables.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Effort participatif multilingue mené par Tyler A. Chang, Catherine Arnett et al. (335+ chercheurs de 65+ pays) |
| Capacités mesurées | Raisonnement de bon sens sur les interactions physiques, dans un cadre multilingue et multiculturel (>50% d'exemples à référents culturels locaux) |
| Modalité | Texte |
| Type de questions | Choix multiple (bon sens physique, format PIQA : choisir la solution correcte) |
| Métrique d'évaluation | Accuracy (avec écart de performance entre langues à haute et basse ressource) |
| Accès | Public |
| Langues | 100+ langues (116 variétés en v0.1, 141 en v2 ; 14 à 19 familles, 23 à 24 systèmes d'écriture) |
| Taille du jeu | Nombre total d'exemples non précisé dans le papier ; splits parallèle et non-parallèle |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 3 Pro | 93,4 % | 18 novembre 2025 | Auto-déclaré | |
| 2 | Gemini 3 Flash | 92,8 % | 17 décembre 2025 | Auto-déclaré | |
| 3 | Qwen3.7 Max | Qwen | 91,4 % | 19 mai 2026 | Auto-déclaré |
| 4 | Qwen3.7-Plus | Qwen | 90,3 % | 31 mai 2026 | Auto-déclaré |
| 5 | Qwen3.5-397B-A17B | Qwen | 89,8 % | 16 février 2026 | Auto-déclaré |
| 6 | Qwen3.6 Plus | Qwen | 89,8 % | 31 mars 2026 | Auto-déclaré |
| 7 | Qwen3.5-122B-A10B | Qwen | 88,4 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.5-27B | Qwen | 87,5 % | 24 février 2026 | Auto-déclaré |
| 9 | Qwen3.5-35B-A3B | Qwen | 86,6 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3.5-9B | Qwen | 83,2 % | 2 mars 2026 | Auto-déclaré |
| 11 | Qwen3.5-4B | Qwen | 78,9 % | 2 mars 2026 | Auto-déclaré |
| 12 | Qwen3.5-2B | Qwen | 69,3 % | 2 mars 2026 | Auto-déclaré |
| 13 | Qwen3.5-0.8B | Qwen | 59,4 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 88,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Global PIQA indique qu’un modèle sait généralement sélectionner l’option la plus plausible dans des scénarios impliquant des objets, des actions et des contraintes physiques ordinaires, y compris dans des contextes multiculturels. Le classement disponible montre un niveau global déjà élevé, avec une médiane à 88% et un meilleur score de 93% pour Gemini 3 Pro, ce qui suggère une possible saturation partielle pour les modèles les plus performants. L’interprétation doit toutefois rester prudente: les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite et contrôlée. Le benchmark conserve aussi des limites classiques, notamment le risque de contamination des données d’évaluation, l’absence de taille totale précisée dans le papier, et une portée centrée sur le bon sens physique plutôt que sur le raisonnement général. Son intérêt principal tient à l’écart de performance entre langues à haute et basse ressource, qui met en évidence les inégalités persistantes de couverture linguistique et culturelle.
Sources des scores : llm-stats.