HellaSwag
HellaSwag est un benchmark de compréhension du langage naturel centré sur le raisonnement de bon sens. Créé par Rowan Zellers et al. à l’University of Washington et à l’Allen Institute for AI, il propose des situations quotidiennes ou physiques dont il faut sélectionner la suite la plus…
HellaSwag est un benchmark de compréhension du langage naturel centré sur le raisonnement de bon sens. Créé par Rowan Zellers et al. à l’University of Washington et à l’Allen Institute for AI, il propose des situations quotidiennes ou physiques dont il faut sélectionner la suite la plus plausible parmi quatre complétions.
Le jeu s’est imposé comme un repère pour tester la capacité des modèles à dépasser les associations superficielles. Sa construction par Adversarial Filtering vise à produire des questions faciles pour les humains, mais difficiles pour les modèles, afin d’évaluer la robustesse du raisonnement contextuel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Rowan Zellers et al. (University of Washington / Allen Institute for AI) |
| Capacités mesurées | raisonnement |
| Modalité | Texte |
| Type de questions | QCM à 4 choix de complétion de phrase |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | environ 70 000 exemples |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude 3 Opus | Anthropic | 95,4 % | 29 février 2024 | Auto-déclaré |
| 2 | GPT-4 | OpenAI | 95,3 % | 28 août 2023 | Auto-déclaré |
| 3 | Gemini 1.5 Pro | 93,3 % | 1 mai 2024 | Auto-déclaré | |
| 4 | MiMo-V2.5-Pro | Xiaomi | 89,8 % | 27 avril 2026 | Auto-déclaré |
| 5 | Claude 3 Sonnet | Anthropic | 89,0 % | 29 février 2024 | Auto-déclaré |
| 6 | Cohere: Command R (08-2024) | cohere | 88,6 % | 30 août 2024 | Auto-déclaré |
| 7 | Hermes 3 70B | Nous Research | 88,2 % | 15 août 2024 | Auto-déclaré |
| 8 | Qwen2 72B Instruct | Qwen | 87,6 % | 23 juillet 2024 | Auto-déclaré |
| 9 | Gemini 1.5 Flash | 86,5 % | 1 mai 2024 | Auto-déclaré | |
| 10 | Gemma 2 27B | 86,4 % | 27 juin 2024 | Auto-déclaré | |
| 11 | Claude 3 Haiku | Anthropic | 85,9 % | 13 mars 2024 | Auto-déclaré |
| 12 | Llama 3.1 Nemotron 70B Instruct | NVIDIA | 85,6 % | 1 octobre 2024 | Auto-déclaré |
| 13 | Qwen2.5 32B Instruct | Qwen | 85,2 % | 19 septembre 2024 | Auto-déclaré |
| 14 | Phi-3.5-MoE-instruct | Microsoft | 83,8 % | 23 août 2024 | Auto-déclaré |
| 15 | Mistral NeMo Instruct | Mistral AI | 83,5 % | 18 juillet 2024 | Auto-déclaré |
| 16 | Qwen2.5-Coder 32B Instruct | Qwen | 83,0 % | 19 septembre 2024 | Auto-déclaré |
| 17 | Gemma 2 9B | 81,9 % | 27 juin 2024 | Auto-déclaré | |
| 18 | Granite 3.3 8B Base | IBM | 80,1 % | 16 avril 2025 | Auto-déclaré |
| 19 | Gemma 3n E4B | 78,6 % | 26 juin 2025 | Auto-déclaré | |
| 20 | Gemma 3n E4B Instructed LiteRT Preview | 78,6 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 27 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 83,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HellaSwag indique qu’un modèle choisit fréquemment la continuation la plus vraisemblable d’une scène courante, ce qui reflète une bonne maîtrise des régularités physiques et sociales exprimées en anglais. Dans la base, les résultats couvrent 27 modèles, avec un score médian de 84% et un meilleur score attribué à Claude 3 Opus (Anthropic), à 95%. Cet écart suggère que le benchmark reste discriminant, mais proche d’une zone de saturation pour les modèles les plus performants.
La lecture du classement doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. HellaSwag évalue une forme ciblée de bon sens par QCM de complétion, non une compréhension générale du monde ni une capacité de raisonnement ouverte. Sa diffusion publique peut aussi exposer le jeu à des risques de contamination des données d’entraînement. Le classement met surtout en évidence la solidité des grands modèles sur des tâches de plausibilité linguistique et situationnelle.
Sources des scores : llm-stats.