WritingBench
WritingBench est un benchmark public consacré à l’évaluation des capacités de rédaction générative des grands modèles de langage. Publié en 2025 par Alibaba Group, via Tongyi Lab, avec des collaborateurs de Renmin University et SJTU, il couvre des tâches ouvertes de production de texte…
WritingBench est un benchmark public consacré à l’évaluation des capacités de rédaction générative des grands modèles de langage. Publié en 2025 par Alibaba Group, via Tongyi Lab, avec des collaborateurs de Renmin University et SJTU, il couvre des tâches ouvertes de production de texte en anglais et en chinois.
Le benchmark mesure la rédaction créative, persuasive, informative et technique, ainsi que le respect de contraintes de style, de format et de longueur. Son intérêt est de tester des modèles dans des situations proches d’usages rédactionnels variés, au-delà de simples réponses factuelles ou de choix multiples.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Alibaba Group (Tongyi Lab) et collaborateurs (Renmin University, SJTU) |
| Capacités mesurées | Rédaction créative, persuasive, informative et technique ; respect des contraintes de style, format et longueur. |
| Modalité | Texte |
| Type de questions | Génération de texte (rédaction) ouverte sur 6 domaines / 100 sous-domaines |
| Métrique d'évaluation | Cadre d'évaluation dépendant de la requête : critères générés dynamiquement par LLM + modèle critique affiné (style, format, longueur) |
| Accès | Public |
| Langues | anglais et chinois (bilingue) |
| Taille du jeu | 1239 requêtes, 6 domaines principaux, 100 sous-domaines |
| Année de publication | 2025 |
| Ressources | Article scientifique |
Classement des modèles (top 15)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 88,3 % | 25 juillet 2025 | Auto-déclaré |
| 2 | Qwen3-Next-80B-A3B-Instruct | Qwen | 87,3 % | 10 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Thinking | Qwen | 86,7 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 32B Thinking | Qwen | 86,2 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Instruct | Qwen | 85,5 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 8B Thinking | Qwen | 85,5 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 30B A3B Thinking | Qwen | 85,2 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 85,2 % | 22 juillet 2025 | Auto-déclaré |
| 9 | Qwen3-Next-80B-A3B-Thinking | Qwen | 84,6 % | 10 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 4B Thinking | Qwen | 84,0 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 8B Instruct | Qwen | 83,1 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 32B Instruct | Qwen | 82,9 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Instruct | Qwen | 82,6 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 4B Instruct | Qwen | 82,5 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Kimi K2 0905 | Moonshot AI | 73,8 % | 5 septembre 2025 | Auto-déclaré |
Classement établi sur 15 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 85,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur WritingBench indique une forte capacité à produire des textes adaptés à une consigne ouverte, en tenant compte du registre attendu, de la structure demandée et des contraintes de longueur. L’évaluation repose sur un cadre dépendant de chaque requête, avec des critères générés dynamiquement par LLM et un modèle critique affiné, ce qui permet une appréciation plus contextualisée que des métriques fixes. Cette approche reste toutefois moins directement vérifiable qu’un benchmark à réponses fermées, et la fiabilité des scores de la base est majoritairement auto-déclarée par les éditeurs.
Le classement doit donc être interprété avec prudence. Le score médian atteint 85 %, tandis que le meilleur modèle recensé, Qwen3-235B-A22B-Thinking-2507, obtient 88 %, ce qui suggère un écart limité entre modèles classés et une possible saturation partielle du benchmark. La portée reste centrée sur l’anglais et le chinois, avec un risque général de contamination difficile à exclure pour un jeu public. Surtout, 14 des 15 modèles classés sont édités par Qwen, qui a aussi codéveloppé WritingBench. Le leaderboard renseigne donc surtout sur la famille Qwen et ne constitue pas une source indépendante robuste pour comparer Qwen à d’autres éditeurs.
Sources des scores : llm-stats.