Langage & rédaction

Creative Writing v3

Creative Writing v3 est un benchmark public d’EQ-Bench, créé par Samuel J. Paech, consacré à l’évaluation de l’écriture créative des modèles de langage. Il s’appuie sur des réponses à des prompts d’écriture, jugées par un LLM, afin d’examiner des dimensions comme l’humour, la romance, la…

Le benchmark vise surtout à discriminer les modèles situés en haut du classement, là où les écarts deviennent difficiles à observer avec des tests plus généraux. Il sert ainsi d’indicateur spécialisé pour comparer la créativité rédactionnelle et certaines formes d’intelligence émotionnelle en anglais.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	EQ-Bench (Samuel J. Paech)
Capacités mesurées	Écriture créative : humour, romance, conscience spatiale, perspectives originales ; discrimination fine au sommet du classement.
Modalité	Texte
Type de questions	Écriture créative jugée par LLM (réponses à des prompts d'écriture)
Métrique d'évaluation	Score hybride : notation par rubrique + Elo (Glicko-2) sur comparaisons pairwise ; juge Claude Sonnet 4.6
Accès	Public
Langues	anglais
Taille du jeu	32 prompts × 3 itérations = 96 items
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 12)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3-235B-A22B-Instruct-2507	Qwen	1 495	22 juillet 2025	Auto-déclaré
2	Qwen3 VL 235B A22B Instruct	Qwen	1 478	22 septembre 2025	Auto-déclaré
3	Qwen3-235B-A22B-Thinking-2507	Qwen	1 471	25 juillet 2025	Auto-déclaré
4	Qwen3 VL 235B A22B Thinking	Qwen	1 464	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 32B Instruct	Qwen	1 463	22 septembre 2025	Auto-déclaré
6	Grok-4.1	xAI	1 460	17 novembre 2025	Auto-déclaré
7	Qwen3-Next-80B-A3B-Instruct	Qwen	1 457	10 septembre 2025	Auto-déclaré
8	Qwen3 VL 30B A3B Instruct	Qwen	1 445	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 32B Thinking	Qwen	1 423	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 30B A3B Thinking	Qwen	1 410	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 8B Thinking	Qwen	1 408	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 4B Thinking	Qwen	1 300	22 septembre 2025	Auto-déclaré

Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Creative Writing v3 indique qu’un modèle produit des textes jugés plus convaincants dans des tâches créatives variées, avec une meilleure maîtrise du ton, de l’originalité, de la cohérence narrative et de situations demandant une représentation spatiale ou émotionnelle fine. L’évaluation combine une notation par rubrique et des comparaisons pairwise converties en Elo via Glicko-2, avec Claude Sonnet 4.6 comme juge, ce qui apporte une structure plus robuste qu’une simple note isolée. La fiabilité reste toutefois à interpréter avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. La portée est aussi limitée à l’anglais et à 96 items issus de 32 prompts répétés sur trois itérations, ce qui ne couvre pas toute la diversité de l’écriture créative. Le score médian de 85 % et le meilleur résultat à 88 % suggèrent un classement assez resserré, utile pour départager les meilleurs modèles, mais potentiellement sensible à la saturation, à la formulation des prompts et au risque de contamination.

Sources des scores : llm-stats.

Creative Writing v3

Carte d'identité

Classement des modèles (top 12)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench