WritingBench

WritingBench est un benchmark public consacré à l’évaluation des capacités de rédaction générative des grands modèles de langage. Publié en 2025 par Alibaba Group, via Tongyi Lab, avec des collaborateurs de Renmin University et SJTU, il couvre des tâches ouvertes de production de texte…

WritingBench est un benchmark public consacré à l’évaluation des capacités de rédaction générative des grands modèles de langage. Publié en 2025 par Alibaba Group, via Tongyi Lab, avec des collaborateurs de Renmin University et SJTU, il couvre des tâches ouvertes de production de texte en anglais et en chinois.

Le benchmark mesure la rédaction créative, persuasive, informative et technique, ainsi que le respect de contraintes de style, de format et de longueur. Son intérêt est de tester des modèles dans des situations proches d’usages rédactionnels variés, au-delà de simples réponses factuelles ou de choix multiples.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAlibaba Group (Tongyi Lab) et collaborateurs (Renmin University, SJTU)
Capacités mesuréesRédaction créative, persuasive, informative et technique ; respect des contraintes de style, format et longueur.
ModalitéTexte
Type de questionsGénération de texte (rédaction) ouverte sur 6 domaines / 100 sous-domaines
Métrique d'évaluationCadre d'évaluation dépendant de la requête : critères générés dynamiquement par LLM + modèle critique affiné (style, format, longueur)
AccèsPublic
Languesanglais et chinois (bilingue)
Taille du jeu1239 requêtes, 6 domaines principaux, 100 sous-domaines
Année de publication2025
RessourcesArticle scientifique

Classement des modèles (top 15)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3-235B-A22B-Thinking-2507Qwen88,3 %25 juillet 2025Auto-déclaré
2Qwen3-Next-80B-A3B-InstructQwen87,3 %10 septembre 2025Auto-déclaré
3Qwen3 VL 235B A22B ThinkingQwen86,7 %22 septembre 2025Auto-déclaré
4Qwen3 VL 32B ThinkingQwen86,2 %22 septembre 2025Auto-déclaré
5Qwen3 VL 235B A22B InstructQwen85,5 %22 septembre 2025Auto-déclaré
6Qwen3 VL 8B ThinkingQwen85,5 %22 septembre 2025Auto-déclaré
7Qwen3 VL 30B A3B ThinkingQwen85,2 %22 septembre 2025Auto-déclaré
8Qwen3-235B-A22B-Instruct-2507Qwen85,2 %22 juillet 2025Auto-déclaré
9Qwen3-Next-80B-A3B-ThinkingQwen84,6 %10 septembre 2025Auto-déclaré
10Qwen3 VL 4B ThinkingQwen84,0 %22 septembre 2025Auto-déclaré
11Qwen3 VL 8B InstructQwen83,1 %22 septembre 2025Auto-déclaré
12Qwen3 VL 32B InstructQwen82,9 %22 septembre 2025Auto-déclaré
13Qwen3 VL 30B A3B InstructQwen82,6 %22 septembre 2025Auto-déclaré
14Qwen3 VL 4B InstructQwen82,5 %22 septembre 2025Auto-déclaré
15Kimi K2 0905Moonshot AI73,8 %5 septembre 2025Auto-déclaré

Classement établi sur 15 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 85,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur WritingBench indique une forte capacité à produire des textes adaptés à une consigne ouverte, en tenant compte du registre attendu, de la structure demandée et des contraintes de longueur. L’évaluation repose sur un cadre dépendant de chaque requête, avec des critères générés dynamiquement par LLM et un modèle critique affiné, ce qui permet une appréciation plus contextualisée que des métriques fixes. Cette approche reste toutefois moins directement vérifiable qu’un benchmark à réponses fermées, et la fiabilité des scores de la base est majoritairement auto-déclarée par les éditeurs.

Le classement doit donc être interprété avec prudence. Le score médian atteint 85 %, tandis que le meilleur modèle recensé, Qwen3-235B-A22B-Thinking-2507, obtient 88 %, ce qui suggère un écart limité entre modèles classés et une possible saturation partielle du benchmark. La portée reste centrée sur l’anglais et le chinois, avec un risque général de contamination difficile à exclure pour un jeu public. Surtout, 14 des 15 modèles classés sont édités par Qwen, qui a aussi codéveloppé WritingBench. Le leaderboard renseigne donc surtout sur la famille Qwen et ne constitue pas une source indépendante robuste pour comparer Qwen à d’autres éditeurs.


Sources des scores : llm-stats.