SQuALITY

SQuALITY est un benchmark de synthèse longue qui transforme la réponse à des questions en exercice de résumé abstrait orienté requête. Il s’appuie sur des nouvelles du domaine public et demande de produire des résumés fidèles, rédigés à partir d’une compréhension fine de textes longs.

SQuALITY est un benchmark de synthèse longue qui transforme la réponse à des questions en exercice de résumé abstrait orienté requête. Il s’appuie sur des nouvelles du domaine public et demande de produire des résumés fidèles, rédigés à partir d’une compréhension fine de textes longs.

Créé par NYU Machine Learning for Language, avec Alex Wang, Richard Yuanzhe Pang, Angelica Chen, Jason Phang et Samuel R. Bowman, il sert à évaluer la capacité des modèles à lire un document étendu, isoler l’information pertinente et formuler une réponse synthétique de qualité.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkNYU Machine Learning for Language (Alex Wang, Richard Yuanzhe Pang, Angelica Chen, Jason Phang, Samuel R. Bowman)
Capacités mesuréesComprehension de longs documents et resume abstrait oriente question, redige par des contributeurs qualifies.
ModalitéTexte
Type de questionsResume abstrait oriente question (query-focused summarization) sur long document
Métrique d'évaluationROUGE (et evaluation humaine)
AccèsPublic
LanguesAnglais
Taille du jeuNouvelles du domaine public (~3000-6000 mots), 5 questions par texte, 4 resumes de reference par question
Année de publication2022
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Phi-3.5-mini-instructMicrosoft24,3 %23 août 2024Auto-déclaré
2Phi-3.5-MoE-instructMicrosoft24,1 %23 août 2024Auto-déclaré
3Nova ProAmazon19,8 %20 novembre 2024Auto-déclaré
4Nova LiteAmazon19,2 %20 novembre 2024Auto-déclaré
5Nova MicroAmazon18,8 %20 novembre 2024Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 19,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SQuALITY indique qu’un modèle parvient mieux à combiner compréhension de contexte long, sélection d’informations et résumé abstrait orienté question. L’évaluation repose sur ROUGE, complétée par une évaluation humaine dans la conception du benchmark, ce qui vise à limiter les résumés superficiels ou infidèles. Dans la base considérée, les résultats doivent toutefois être interprétés avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le classement montre un niveau global encore bas, avec un score médian de 20 % et un meilleur résultat à 24 % pour Phi-3.5-mini-instruct (Microsoft), ce qui ne suggère pas une saturation du benchmark. Ses limites tiennent aussi à sa portée : textes en anglais, nouvelles du domaine public, tâche centrée sur le résumé orienté question. Le caractère public des données impose également de considérer le risque de contamination lors de comparaisons entre modèles.


Sources des scores : llm-stats.