Winogrande
Winogrande est un benchmark en anglais consacré au raisonnement de sens commun et à la résolution de coréférence dans des phrases ambiguës. Créé par Allen Institute for AI (AI2), University of Washington et K. Sakaguchi et al., il prolonge l’esprit du Winograd Schema Challenge avec un…
Winogrande est un benchmark en anglais consacré au raisonnement de sens commun et à la résolution de coréférence dans des phrases ambiguës. Créé par Allen Institute for AI (AI2), University of Washington et K. Sakaguchi et al., il prolonge l’esprit du Winograd Schema Challenge avec un jeu de problèmes à grande échelle.
Le benchmark repose sur des QCM binaires où un modèle doit choisir la bonne référence d’un pronom. Son rôle est d’évaluer si un système exploite une compréhension plausible du contexte ou s’appuie sur des raccourcis statistiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Allen Institute for AI (AI2) et University of Washington; K. Sakaguchi et al. |
| Capacités mesurées | langage, raisonnement |
| Modalité | Texte |
| Type de questions | QCM binaire |
| Métrique d'évaluation | accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | environ 44 000 problèmes |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-4 | OpenAI | 87,5 % | 28 août 2023 | Auto-déclaré |
| 2 | MiMo-V2.5-Pro | Xiaomi | 85,6 % | 27 avril 2026 | Auto-déclaré |
| 3 | Cohere: Command R (08-2024) | cohere | 85,4 % | 30 août 2024 | Auto-déclaré |
| 4 | Qwen2 72B Instruct | Qwen | 85,1 % | 23 juillet 2024 | Auto-déclaré |
| 5 | Llama 3.1 Nemotron 70B Instruct | NVIDIA | 84,5 % | 1 octobre 2024 | Auto-déclaré |
| 6 | Gemma 2 27B | 83,7 % | 27 juin 2024 | Auto-déclaré | |
| 7 | Hermes 3 70B | Nous Research | 83,2 % | 15 août 2024 | Auto-déclaré |
| 8 | Qwen2.5 32B Instruct | Qwen | 82,0 % | 19 septembre 2024 | Auto-déclaré |
| 9 | Phi-3.5-MoE-instruct | Microsoft | 81,3 % | 23 août 2024 | Auto-déclaré |
| 10 | Qwen2.5-Coder 32B Instruct | Qwen | 80,8 % | 19 septembre 2024 | Auto-déclaré |
| 11 | Gemma 2 9B | 80,6 % | 27 juin 2024 | Auto-déclaré | |
| 12 | Mistral NeMo Instruct | Mistral AI | 76,8 % | 18 juillet 2024 | Auto-déclaré |
| 13 | Ministral 8B Instruct | Mistral AI | 75,3 % | 16 octobre 2024 | Auto-déclaré |
| 14 | Granite 3.3 8B Base | IBM | 74,4 % | 16 avril 2025 | Auto-déclaré |
| 15 | Qwen2.5-Coder 7B Instruct | Qwen | 72,9 % | 19 septembre 2024 | Auto-déclaré |
| 16 | Gemma 3n E4B | 71,7 % | 26 juin 2025 | Auto-déclaré | |
| 17 | Gemma 3n E4B Instructed LiteRT Preview | 71,7 % | 20 mai 2025 | Auto-déclaré | |
| 18 | Phi-3.5-mini-instruct | Microsoft | 68,5 % | 23 août 2024 | Auto-déclaré |
| 19 | Phi 4 Mini | Microsoft | 67,0 % | 30 avril 2025 | Auto-déclaré |
| 20 | Gemma 3n E2B | 66,8 % | 26 juin 2025 | Auto-déclaré |
Classement établi sur 22 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 78,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Winogrande indique une meilleure capacité à résoudre des ambiguïtés linguistiques simples en apparence, mais dépendantes du sens commun. L’adversarial filtering vise à limiter les biais superficiels du jeu, ce qui renforce l’intérêt du test pour comparer des modèles de langage. Les résultats de la base restent toutefois à interpréter avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs et le jeu de test privé ne publie pas les réponses. Le classement montre un niveau déjà élevé, avec une médiane à 79 % sur 22 modèles et GPT-4 (OpenAI) en tête à 88 %, mais cet écart reste inférieur à la performance humaine indiquée à 94,0 %. Les limites portent sur la portée linguistique, limitée à l’anglais, le risque de contamination lié à la notoriété du benchmark, et une possible saturation progressive lorsque les modèles approchent les meilleurs scores observés.
Sources des scores : llm-stats.