Langage & rédaction

Winogrande

Winogrande est un benchmark en anglais consacré au raisonnement de sens commun et à la résolution de coréférence dans des phrases ambiguës. Créé par Allen Institute for AI (AI2), University of Washington et K. Sakaguchi et al., il prolonge l’esprit du Winograd Schema Challenge avec un…

Le benchmark repose sur des QCM binaires où un modèle doit choisir la bonne référence d’un pronom. Son rôle est d’évaluer si un système exploite une compréhension plausible du contexte ou s’appuie sur des raccourcis statistiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Allen Institute for AI (AI2) et University of Washington; K. Sakaguchi et al.
Capacités mesurées	langage, raisonnement
Modalité	Texte
Type de questions	QCM binaire
Métrique d'évaluation	accuracy
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais
Taille du jeu	environ 44 000 problèmes
Année de publication	2019
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-4	OpenAI	87,5 %	28 août 2023	Auto-déclaré
2	MiMo-V2.5-Pro	Xiaomi	85,6 %	27 avril 2026	Auto-déclaré
3	Cohere: Command R (08-2024)	cohere	85,4 %	30 août 2024	Auto-déclaré
4	Qwen2 72B Instruct	Qwen	85,1 %	23 juillet 2024	Auto-déclaré
5	Llama 3.1 Nemotron 70B Instruct	NVIDIA	84,5 %	1 octobre 2024	Auto-déclaré
6	Gemma 2 27B	Google	83,7 %	27 juin 2024	Auto-déclaré
7	Hermes 3 70B	Nous Research	83,2 %	15 août 2024	Auto-déclaré
8	Qwen2.5 32B Instruct	Qwen	82,0 %	19 septembre 2024	Auto-déclaré
9	Phi-3.5-MoE-instruct	Microsoft	81,3 %	23 août 2024	Auto-déclaré
10	Qwen2.5-Coder 32B Instruct	Qwen	80,8 %	19 septembre 2024	Auto-déclaré
11	Gemma 2 9B	Google	80,6 %	27 juin 2024	Auto-déclaré
12	Mistral NeMo Instruct	Mistral AI	76,8 %	18 juillet 2024	Auto-déclaré
13	Ministral 8B Instruct	Mistral AI	75,3 %	16 octobre 2024	Auto-déclaré
14	Granite 3.3 8B Base	IBM	74,4 %	16 avril 2025	Auto-déclaré
15	Qwen2.5-Coder 7B Instruct	Qwen	72,9 %	19 septembre 2024	Auto-déclaré
16	Gemma 3n E4B	Google	71,7 %	26 juin 2025	Auto-déclaré
17	Gemma 3n E4B Instructed LiteRT Preview	Google	71,7 %	20 mai 2025	Auto-déclaré
18	Phi-3.5-mini-instruct	Microsoft	68,5 %	23 août 2024	Auto-déclaré
19	Phi 4 Mini	Microsoft	67,0 %	30 avril 2025	Auto-déclaré
20	Gemma 3n E2B	Google	66,8 %	26 juin 2025	Auto-déclaré

Classement établi sur 22 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 78,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Winogrande indique une meilleure capacité à résoudre des ambiguïtés linguistiques simples en apparence, mais dépendantes du sens commun. L’adversarial filtering vise à limiter les biais superficiels du jeu, ce qui renforce l’intérêt du test pour comparer des modèles de langage. Les résultats de la base restent toutefois à interpréter avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs et le jeu de test privé ne publie pas les réponses. Le classement montre un niveau déjà élevé, avec une médiane à 79 % sur 22 modèles et GPT-4 (OpenAI) en tête à 88 %, mais cet écart reste inférieur à la performance humaine indiquée à 94,0 %. Les limites portent sur la portée linguistique, limitée à l’anglais, le risque de contamination lié à la notoriété du benchmark, et une possible saturation progressive lorsque les modèles approchent les meilleurs scores observés.

Sources des scores : llm-stats.

Winogrande

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench