Langage & rédaction

WritingBench

WritingBench est un benchmark public consacré à l’évaluation des capacités de rédaction générative des grands modèles de langage. Publié en 2025 par Alibaba Group, via Tongyi Lab, avec des collaborateurs de Renmin University et SJTU, il couvre des tâches ouvertes de production de texte…

Le benchmark mesure la rédaction créative, persuasive, informative et technique, ainsi que le respect de contraintes de style, de format et de longueur. Son intérêt est de tester des modèles dans des situations proches d’usages rédactionnels variés, au-delà de simples réponses factuelles ou de choix multiples.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Alibaba Group (Tongyi Lab) et collaborateurs (Renmin University, SJTU)
Capacités mesurées	Rédaction créative, persuasive, informative et technique ; respect des contraintes de style, format et longueur.
Modalité	Texte
Type de questions	Génération de texte (rédaction) ouverte sur 6 domaines / 100 sous-domaines
Métrique d'évaluation	Cadre d'évaluation dépendant de la requête : critères générés dynamiquement par LLM + modèle critique affiné (style, format, longueur)
Accès	Public
Langues	anglais et chinois (bilingue)
Taille du jeu	1239 requêtes, 6 domaines principaux, 100 sous-domaines
Année de publication	2025
Ressources	Article scientifique

Classement des modèles (top 15)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3-235B-A22B-Thinking-2507	Qwen	88,3 %	25 juillet 2025	Auto-déclaré
2	Qwen3-Next-80B-A3B-Instruct	Qwen	87,3 %	10 septembre 2025	Auto-déclaré
3	Qwen3 VL 235B A22B Thinking	Qwen	86,7 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 32B Thinking	Qwen	86,2 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 235B A22B Instruct	Qwen	85,5 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 8B Thinking	Qwen	85,5 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 30B A3B Thinking	Qwen	85,2 %	22 septembre 2025	Auto-déclaré
8	Qwen3-235B-A22B-Instruct-2507	Qwen	85,2 %	22 juillet 2025	Auto-déclaré
9	Qwen3-Next-80B-A3B-Thinking	Qwen	84,6 %	10 septembre 2025	Auto-déclaré
10	Qwen3 VL 4B Thinking	Qwen	84,0 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 8B Instruct	Qwen	83,1 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 32B Instruct	Qwen	82,9 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Instruct	Qwen	82,6 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 4B Instruct	Qwen	82,5 %	22 septembre 2025	Auto-déclaré
15	Kimi K2 0905	Moonshot AI	73,8 %	5 septembre 2025	Auto-déclaré

Classement établi sur 15 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 85,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur WritingBench indique une forte capacité à produire des textes adaptés à une consigne ouverte, en tenant compte du registre attendu, de la structure demandée et des contraintes de longueur. L’évaluation repose sur un cadre dépendant de chaque requête, avec des critères générés dynamiquement par LLM et un modèle critique affiné, ce qui permet une appréciation plus contextualisée que des métriques fixes. Cette approche reste toutefois moins directement vérifiable qu’un benchmark à réponses fermées, et la fiabilité des scores de la base est majoritairement auto-déclarée par les éditeurs.

Le classement doit donc être interprété avec prudence. Le score médian atteint 85 %, tandis que le meilleur modèle recensé, Qwen3-235B-A22B-Thinking-2507, obtient 88 %, ce qui suggère un écart limité entre modèles classés et une possible saturation partielle du benchmark. La portée reste centrée sur l’anglais et le chinois, avec un risque général de contamination difficile à exclure pour un jeu public. Surtout, 14 des 15 modèles classés sont édités par Qwen, qui a aussi codéveloppé WritingBench. Le leaderboard renseigne donc surtout sur la famille Qwen et ne constitue pas une source indépendante robuste pour comparer Qwen à d’autres éditeurs.

Sources des scores : llm-stats.

WritingBench

Carte d'identité

Classement des modèles (top 15)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23