HellaSwag

HellaSwag est un benchmark de compréhension du langage naturel centré sur le raisonnement de bon sens. Créé par Rowan Zellers et al. à l’University of Washington et à l’Allen Institute for AI, il propose des situations quotidiennes ou physiques dont il faut sélectionner la suite la plus…

HellaSwag est un benchmark de compréhension du langage naturel centré sur le raisonnement de bon sens. Créé par Rowan Zellers et al. à l’University of Washington et à l’Allen Institute for AI, il propose des situations quotidiennes ou physiques dont il faut sélectionner la suite la plus plausible parmi quatre complétions.

Le jeu s’est imposé comme un repère pour tester la capacité des modèles à dépasser les associations superficielles. Sa construction par Adversarial Filtering vise à produire des questions faciles pour les humains, mais difficiles pour les modèles, afin d’évaluer la robustesse du raisonnement contextuel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkRowan Zellers et al. (University of Washington / Allen Institute for AI)
Capacités mesuréesraisonnement
ModalitéTexte
Type de questionsQCM à 4 choix de complétion de phrase
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeuenviron 70 000 exemples
Année de publication2019
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude 3 OpusAnthropic95,4 %29 février 2024Auto-déclaré
2GPT-4OpenAI95,3 %28 août 2023Auto-déclaré
3Gemini 1.5 ProGoogle93,3 %1 mai 2024Auto-déclaré
4MiMo-V2.5-ProXiaomi89,8 %27 avril 2026Auto-déclaré
5Claude 3 SonnetAnthropic89,0 %29 février 2024Auto-déclaré
6Cohere: Command R (08-2024)cohere88,6 %30 août 2024Auto-déclaré
7Hermes 3 70BNous Research88,2 %15 août 2024Auto-déclaré
8Qwen2 72B InstructQwen87,6 %23 juillet 2024Auto-déclaré
9Gemini 1.5 FlashGoogle86,5 %1 mai 2024Auto-déclaré
10Gemma 2 27BGoogle86,4 %27 juin 2024Auto-déclaré
11Claude 3 HaikuAnthropic85,9 %13 mars 2024Auto-déclaré
12Llama 3.1 Nemotron 70B InstructNVIDIA85,6 %1 octobre 2024Auto-déclaré
13Qwen2.5 32B InstructQwen85,2 %19 septembre 2024Auto-déclaré
14Phi-3.5-MoE-instructMicrosoft83,8 %23 août 2024Auto-déclaré
15Mistral NeMo InstructMistral AI83,5 %18 juillet 2024Auto-déclaré
16Qwen2.5-Coder 32B InstructQwen83,0 %19 septembre 2024Auto-déclaré
17Gemma 2 9BGoogle81,9 %27 juin 2024Auto-déclaré
18Granite 3.3 8B BaseIBM80,1 %16 avril 2025Auto-déclaré
19Gemma 3n E4BGoogle78,6 %26 juin 2025Auto-déclaré
20Gemma 3n E4B Instructed LiteRT PreviewGoogle78,6 %20 mai 2025Auto-déclaré

Classement établi sur 27 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 83,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HellaSwag indique qu’un modèle choisit fréquemment la continuation la plus vraisemblable d’une scène courante, ce qui reflète une bonne maîtrise des régularités physiques et sociales exprimées en anglais. Dans la base, les résultats couvrent 27 modèles, avec un score médian de 84% et un meilleur score attribué à Claude 3 Opus (Anthropic), à 95%. Cet écart suggère que le benchmark reste discriminant, mais proche d’une zone de saturation pour les modèles les plus performants.

La lecture du classement doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. HellaSwag évalue une forme ciblée de bon sens par QCM de complétion, non une compréhension générale du monde ni une capacité de raisonnement ouverte. Sa diffusion publique peut aussi exposer le jeu à des risques de contamination des données d’entraînement. Le classement met surtout en évidence la solidité des grands modèles sur des tâches de plausibilité linguistique et situationnelle.


Sources des scores : llm-stats.