Raisonnement

HellaSwag

HellaSwag est un benchmark de compréhension du langage naturel centré sur le raisonnement de bon sens. Créé par Rowan Zellers et al. à l’University of Washington et à l’Allen Institute for AI, il propose des situations quotidiennes ou physiques dont il faut sélectionner la suite la plus…

Le jeu s’est imposé comme un repère pour tester la capacité des modèles à dépasser les associations superficielles. Sa construction par Adversarial Filtering vise à produire des questions faciles pour les humains, mais difficiles pour les modèles, afin d’évaluer la robustesse du raisonnement contextuel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Rowan Zellers et al. (University of Washington / Allen Institute for AI)
Capacités mesurées	raisonnement
Modalité	Texte
Type de questions	QCM à 4 choix de complétion de phrase
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	environ 70 000 exemples
Année de publication	2019
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude 3 Opus	Anthropic	95,4 %	29 février 2024	Auto-déclaré
2	GPT-4	OpenAI	95,3 %	28 août 2023	Auto-déclaré
3	Gemini 1.5 Pro	Google	93,3 %	1 mai 2024	Auto-déclaré
4	MiMo-V2.5-Pro	Xiaomi	89,8 %	27 avril 2026	Auto-déclaré
5	Claude 3 Sonnet	Anthropic	89,0 %	29 février 2024	Auto-déclaré
6	Cohere: Command R (08-2024)	cohere	88,6 %	30 août 2024	Auto-déclaré
7	Hermes 3 70B	Nous Research	88,2 %	15 août 2024	Auto-déclaré
8	Qwen2 72B Instruct	Qwen	87,6 %	23 juillet 2024	Auto-déclaré
9	Gemini 1.5 Flash	Google	86,5 %	1 mai 2024	Auto-déclaré
10	Gemma 2 27B	Google	86,4 %	27 juin 2024	Auto-déclaré
11	Claude 3 Haiku	Anthropic	85,9 %	13 mars 2024	Auto-déclaré
12	Llama 3.1 Nemotron 70B Instruct	NVIDIA	85,6 %	1 octobre 2024	Auto-déclaré
13	Qwen2.5 32B Instruct	Qwen	85,2 %	19 septembre 2024	Auto-déclaré
14	Phi-3.5-MoE-instruct	Microsoft	83,8 %	23 août 2024	Auto-déclaré
15	Mistral NeMo Instruct	Mistral AI	83,5 %	18 juillet 2024	Auto-déclaré
16	Qwen2.5-Coder 32B Instruct	Qwen	83,0 %	19 septembre 2024	Auto-déclaré
17	Gemma 2 9B	Google	81,9 %	27 juin 2024	Auto-déclaré
18	Granite 3.3 8B Base	IBM	80,1 %	16 avril 2025	Auto-déclaré
19	Gemma 3n E4B	Google	78,6 %	26 juin 2025	Auto-déclaré
20	Gemma 3n E4B Instructed LiteRT Preview	Google	78,6 %	20 mai 2025	Auto-déclaré

Classement établi sur 27 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 83,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HellaSwag indique qu’un modèle choisit fréquemment la continuation la plus vraisemblable d’une scène courante, ce qui reflète une bonne maîtrise des régularités physiques et sociales exprimées en anglais. Dans la base, les résultats couvrent 27 modèles, avec un score médian de 84% et un meilleur score attribué à Claude 3 Opus (Anthropic), à 95%. Cet écart suggère que le benchmark reste discriminant, mais proche d’une zone de saturation pour les modèles les plus performants.

La lecture du classement doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. HellaSwag évalue une forme ciblée de bon sens par QCM de complétion, non une compréhension générale du monde ni une capacité de raisonnement ouverte. Sa diffusion publique peut aussi exposer le jeu à des risques de contamination des données d’entraînement. Le classement met surtout en évidence la solidité des grands modèles sur des tâches de plausibilité linguistique et situationnelle.

Sources des scores : llm-stats.

HellaSwag

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++