Winogrande

Winogrande est un benchmark en anglais consacré au raisonnement de sens commun et à la résolution de coréférence dans des phrases ambiguës. Créé par Allen Institute for AI (AI2), University of Washington et K. Sakaguchi et al., il prolonge l’esprit du Winograd Schema Challenge avec un…

Winogrande est un benchmark en anglais consacré au raisonnement de sens commun et à la résolution de coréférence dans des phrases ambiguës. Créé par Allen Institute for AI (AI2), University of Washington et K. Sakaguchi et al., il prolonge l’esprit du Winograd Schema Challenge avec un jeu de problèmes à grande échelle.

Le benchmark repose sur des QCM binaires où un modèle doit choisir la bonne référence d’un pronom. Son rôle est d’évaluer si un système exploite une compréhension plausible du contexte ou s’appuie sur des raccourcis statistiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAllen Institute for AI (AI2) et University of Washington; K. Sakaguchi et al.
Capacités mesuréeslangage, raisonnement
ModalitéTexte
Type de questionsQCM binaire
Métrique d'évaluationaccuracy
AccèsJeu de test privé (réponses non divulguées)
Languesanglais
Taille du jeuenviron 44 000 problèmes
Année de publication2019
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-4OpenAI87,5 %28 août 2023Auto-déclaré
2MiMo-V2.5-ProXiaomi85,6 %27 avril 2026Auto-déclaré
3Cohere: Command R (08-2024)cohere85,4 %30 août 2024Auto-déclaré
4Qwen2 72B InstructQwen85,1 %23 juillet 2024Auto-déclaré
5Llama 3.1 Nemotron 70B InstructNVIDIA84,5 %1 octobre 2024Auto-déclaré
6Gemma 2 27BGoogle83,7 %27 juin 2024Auto-déclaré
7Hermes 3 70BNous Research83,2 %15 août 2024Auto-déclaré
8Qwen2.5 32B InstructQwen82,0 %19 septembre 2024Auto-déclaré
9Phi-3.5-MoE-instructMicrosoft81,3 %23 août 2024Auto-déclaré
10Qwen2.5-Coder 32B InstructQwen80,8 %19 septembre 2024Auto-déclaré
11Gemma 2 9BGoogle80,6 %27 juin 2024Auto-déclaré
12Mistral NeMo InstructMistral AI76,8 %18 juillet 2024Auto-déclaré
13Ministral 8B InstructMistral AI75,3 %16 octobre 2024Auto-déclaré
14Granite 3.3 8B BaseIBM74,4 %16 avril 2025Auto-déclaré
15Qwen2.5-Coder 7B InstructQwen72,9 %19 septembre 2024Auto-déclaré
16Gemma 3n E4BGoogle71,7 %26 juin 2025Auto-déclaré
17Gemma 3n E4B Instructed LiteRT PreviewGoogle71,7 %20 mai 2025Auto-déclaré
18Phi-3.5-mini-instructMicrosoft68,5 %23 août 2024Auto-déclaré
19Phi 4 MiniMicrosoft67,0 %30 avril 2025Auto-déclaré
20Gemma 3n E2BGoogle66,8 %26 juin 2025Auto-déclaré

Classement établi sur 22 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 78,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Winogrande indique une meilleure capacité à résoudre des ambiguïtés linguistiques simples en apparence, mais dépendantes du sens commun. L’adversarial filtering vise à limiter les biais superficiels du jeu, ce qui renforce l’intérêt du test pour comparer des modèles de langage. Les résultats de la base restent toutefois à interpréter avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs et le jeu de test privé ne publie pas les réponses. Le classement montre un niveau déjà élevé, avec une médiane à 79 % sur 22 modèles et GPT-4 (OpenAI) en tête à 88 %, mais cet écart reste inférieur à la performance humaine indiquée à 94,0 %. Les limites portent sur la portée linguistique, limitée à l’anglais, le risque de contamination lié à la notoriété du benchmark, et une possible saturation progressive lorsque les modèles approchent les meilleurs scores observés.


Sources des scores : llm-stats.