Connaissances & sciences

Global PIQA

Global PIQA est un benchmark multilingue de raisonnement de bon sens centré sur les interactions physiques. Il prolonge le format PIQA, où un modèle doit choisir la solution correcte à une situation concrète du quotidien, en l’adaptant à un grand nombre de langues et de contextes…

Créé par un effort participatif mené par Tyler A. Chang, Catherine Arnett et leurs coauteurs, il vise à tester la compréhension du monde physique au-delà des seuls environnements anglophones. Le benchmark sert ainsi à comparer la robustesse des modèles face à des référents culturels locaux et à des langues aux ressources variables.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Effort participatif multilingue mené par Tyler A. Chang, Catherine Arnett et al. (335+ chercheurs de 65+ pays)
Capacités mesurées	Raisonnement de bon sens sur les interactions physiques, dans un cadre multilingue et multiculturel (>50% d'exemples à référents culturels locaux)
Modalité	Texte
Type de questions	Choix multiple (bon sens physique, format PIQA : choisir la solution correcte)
Métrique d'évaluation	Accuracy (avec écart de performance entre langues à haute et basse ressource)
Accès	Public
Langues	100+ langues (116 variétés en v0.1, 141 en v2 ; 14 à 19 familles, 23 à 24 systèmes d'écriture)
Taille du jeu	Nombre total d'exemples non précisé dans le papier ; splits parallèle et non-parallèle
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 3 Pro	Google	93,4 %	18 novembre 2025	Auto-déclaré
2	Gemini 3 Flash	Google	92,8 %	17 décembre 2025	Auto-déclaré
3	Qwen3.7 Max	Qwen	91,4 %	19 mai 2026	Auto-déclaré
4	Qwen3.7-Plus	Qwen	90,3 %	31 mai 2026	Auto-déclaré
5	Qwen3.5-397B-A17B	Qwen	89,8 %	16 février 2026	Auto-déclaré
6	Qwen3.6 Plus	Qwen	89,8 %	31 mars 2026	Auto-déclaré
7	Qwen3.5-122B-A10B	Qwen	88,4 %	24 février 2026	Auto-déclaré
8	Qwen3.5-27B	Qwen	87,5 %	24 février 2026	Auto-déclaré
9	Qwen3.5-35B-A3B	Qwen	86,6 %	24 février 2026	Auto-déclaré
10	Qwen3.5-9B	Qwen	83,2 %	2 mars 2026	Auto-déclaré
11	Qwen3.5-4B	Qwen	78,9 %	2 mars 2026	Auto-déclaré
12	Qwen3.5-2B	Qwen	69,3 %	2 mars 2026	Auto-déclaré
13	Qwen3.5-0.8B	Qwen	59,4 %	2 mars 2026	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 88,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Global PIQA indique qu’un modèle sait généralement sélectionner l’option la plus plausible dans des scénarios impliquant des objets, des actions et des contraintes physiques ordinaires, y compris dans des contextes multiculturels. Le classement disponible montre un niveau global déjà élevé, avec une médiane à 88% et un meilleur score de 93% pour Gemini 3 Pro, ce qui suggère une possible saturation partielle pour les modèles les plus performants. L’interprétation doit toutefois rester prudente: les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité avec une évaluation entièrement reproduite et contrôlée. Le benchmark conserve aussi des limites classiques, notamment le risque de contamination des données d’évaluation, l’absence de taille totale précisée dans le papier, et une portée centrée sur le bon sens physique plutôt que sur le raisonnement général. Son intérêt principal tient à l’écart de performance entre langues à haute et basse ressource, qui met en évidence les inégalités persistantes de couverture linguistique et culturelle.

Sources des scores : llm-stats.

Global PIQA

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench