SQuALITY
SQuALITY est un benchmark de synthèse longue qui transforme la réponse à des questions en exercice de résumé abstrait orienté requête. Il s’appuie sur des nouvelles du domaine public et demande de produire des résumés fidèles, rédigés à partir d’une compréhension fine de textes longs.
SQuALITY est un benchmark de synthèse longue qui transforme la réponse à des questions en exercice de résumé abstrait orienté requête. Il s’appuie sur des nouvelles du domaine public et demande de produire des résumés fidèles, rédigés à partir d’une compréhension fine de textes longs.
Créé par NYU Machine Learning for Language, avec Alex Wang, Richard Yuanzhe Pang, Angelica Chen, Jason Phang et Samuel R. Bowman, il sert à évaluer la capacité des modèles à lire un document étendu, isoler l’information pertinente et formuler une réponse synthétique de qualité.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | NYU Machine Learning for Language (Alex Wang, Richard Yuanzhe Pang, Angelica Chen, Jason Phang, Samuel R. Bowman) |
| Capacités mesurées | Comprehension de longs documents et resume abstrait oriente question, redige par des contributeurs qualifies. |
| Modalité | Texte |
| Type de questions | Resume abstrait oriente question (query-focused summarization) sur long document |
| Métrique d'évaluation | ROUGE (et evaluation humaine) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | Nouvelles du domaine public (~3000-6000 mots), 5 questions par texte, 4 resumes de reference par question |
| Année de publication | 2022 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Phi-3.5-mini-instruct | Microsoft | 24,3 % | 23 août 2024 | Auto-déclaré |
| 2 | Phi-3.5-MoE-instruct | Microsoft | 24,1 % | 23 août 2024 | Auto-déclaré |
| 3 | Nova Pro | Amazon | 19,8 % | 20 novembre 2024 | Auto-déclaré |
| 4 | Nova Lite | Amazon | 19,2 % | 20 novembre 2024 | Auto-déclaré |
| 5 | Nova Micro | Amazon | 18,8 % | 20 novembre 2024 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 19,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SQuALITY indique qu’un modèle parvient mieux à combiner compréhension de contexte long, sélection d’informations et résumé abstrait orienté question. L’évaluation repose sur ROUGE, complétée par une évaluation humaine dans la conception du benchmark, ce qui vise à limiter les résumés superficiels ou infidèles. Dans la base considérée, les résultats doivent toutefois être interprétés avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le classement montre un niveau global encore bas, avec un score médian de 20 % et un meilleur résultat à 24 % pour Phi-3.5-mini-instruct (Microsoft), ce qui ne suggère pas une saturation du benchmark. Ses limites tiennent aussi à sa portée : textes en anglais, nouvelles du domaine public, tâche centrée sur le résumé orienté question. Le caractère public des données impose également de considérer le risque de contamination lors de comparaisons entre modèles.
Sources des scores : llm-stats.