Contexte long

SQuALITY

SQuALITY est un benchmark de synthèse longue qui transforme la réponse à des questions en exercice de résumé abstrait orienté requête. Il s’appuie sur des nouvelles du domaine public et demande de produire des résumés fidèles, rédigés à partir d’une compréhension fine de textes longs.

Créé par NYU Machine Learning for Language, avec Alex Wang, Richard Yuanzhe Pang, Angelica Chen, Jason Phang et Samuel R. Bowman, il sert à évaluer la capacité des modèles à lire un document étendu, isoler l’information pertinente et formuler une réponse synthétique de qualité.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	NYU Machine Learning for Language (Alex Wang, Richard Yuanzhe Pang, Angelica Chen, Jason Phang, Samuel R. Bowman)
Capacités mesurées	Comprehension de longs documents et resume abstrait oriente question, redige par des contributeurs qualifies.
Modalité	Texte
Type de questions	Resume abstrait oriente question (query-focused summarization) sur long document
Métrique d'évaluation	ROUGE (et evaluation humaine)
Accès	Public
Langues	Anglais
Taille du jeu	Nouvelles du domaine public (~3000-6000 mots), 5 questions par texte, 4 resumes de reference par question
Année de publication	2022
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Phi-3.5-mini-instruct	Microsoft	24,3 %	23 août 2024	Auto-déclaré
2	Phi-3.5-MoE-instruct	Microsoft	24,1 %	23 août 2024	Auto-déclaré
3	Nova Pro	Amazon	19,8 %	20 novembre 2024	Auto-déclaré
4	Nova Lite	Amazon	19,2 %	20 novembre 2024	Auto-déclaré
5	Nova Micro	Amazon	18,8 %	20 novembre 2024	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 19,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SQuALITY indique qu’un modèle parvient mieux à combiner compréhension de contexte long, sélection d’informations et résumé abstrait orienté question. L’évaluation repose sur ROUGE, complétée par une évaluation humaine dans la conception du benchmark, ce qui vise à limiter les résumés superficiels ou infidèles. Dans la base considérée, les résultats doivent toutefois être interprétés avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le classement montre un niveau global encore bas, avec un score médian de 20 % et un meilleur résultat à 24 % pour Phi-3.5-mini-instruct (Microsoft), ce qui ne suggère pas une saturation du benchmark. Ses limites tiennent aussi à sa portée : textes en anglais, nouvelles du domaine public, tâche centrée sur le résumé orienté question. Le caractère public des données impose également de considérer le risque de contamination lors de comparaisons entre modèles.

Sources des scores : llm-stats.

SQuALITY

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++