Creative Writing v3

Creative Writing v3 est un benchmark public d’EQ-Bench, créé par Samuel J. Paech, consacré à l’évaluation de l’écriture créative des modèles de langage. Il s’appuie sur des réponses à des prompts d’écriture, jugées par un LLM, afin d’examiner des dimensions comme l’humour, la romance, la…

Creative Writing v3 est un benchmark public d’EQ-Bench, créé par Samuel J. Paech, consacré à l’évaluation de l’écriture créative des modèles de langage. Il s’appuie sur des réponses à des prompts d’écriture, jugées par un LLM, afin d’examiner des dimensions comme l’humour, la romance, la conscience spatiale et la capacité à produire des perspectives originales.

Le benchmark vise surtout à discriminer les modèles situés en haut du classement, là où les écarts deviennent difficiles à observer avec des tests plus généraux. Il sert ainsi d’indicateur spécialisé pour comparer la créativité rédactionnelle et certaines formes d’intelligence émotionnelle en anglais.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEQ-Bench (Samuel J. Paech)
Capacités mesuréesÉcriture créative : humour, romance, conscience spatiale, perspectives originales ; discrimination fine au sommet du classement.
ModalitéTexte
Type de questionsÉcriture créative jugée par LLM (réponses à des prompts d'écriture)
Métrique d'évaluationScore hybride : notation par rubrique + Elo (Glicko-2) sur comparaisons pairwise ; juge Claude Sonnet 4.6
AccèsPublic
Languesanglais
Taille du jeu32 prompts × 3 itérations = 96 items
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 12)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3-235B-A22B-Instruct-2507Qwen1 49522 juillet 2025Auto-déclaré
2Qwen3 VL 235B A22B InstructQwen1 47822 septembre 2025Auto-déclaré
3Qwen3-235B-A22B-Thinking-2507Qwen1 47125 juillet 2025Auto-déclaré
4Qwen3 VL 235B A22B ThinkingQwen1 46422 septembre 2025Auto-déclaré
5Qwen3 VL 32B InstructQwen1 46322 septembre 2025Auto-déclaré
6Grok-4.1xAI1 46017 novembre 2025Auto-déclaré
7Qwen3-Next-80B-A3B-InstructQwen1 45710 septembre 2025Auto-déclaré
8Qwen3 VL 30B A3B InstructQwen1 44522 septembre 2025Auto-déclaré
9Qwen3 VL 32B ThinkingQwen1 42322 septembre 2025Auto-déclaré
10Qwen3 VL 30B A3B ThinkingQwen1 41022 septembre 2025Auto-déclaré
11Qwen3 VL 8B ThinkingQwen1 40822 septembre 2025Auto-déclaré
12Qwen3 VL 4B ThinkingQwen1 30022 septembre 2025Auto-déclaré

Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Creative Writing v3 indique qu’un modèle produit des textes jugés plus convaincants dans des tâches créatives variées, avec une meilleure maîtrise du ton, de l’originalité, de la cohérence narrative et de situations demandant une représentation spatiale ou émotionnelle fine. L’évaluation combine une notation par rubrique et des comparaisons pairwise converties en Elo via Glicko-2, avec Claude Sonnet 4.6 comme juge, ce qui apporte une structure plus robuste qu’une simple note isolée. La fiabilité reste toutefois à interpréter avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. La portée est aussi limitée à l’anglais et à 96 items issus de 32 prompts répétés sur trois itérations, ce qui ne couvre pas toute la diversité de l’écriture créative. Le score médian de 85 % et le meilleur résultat à 88 % suggèrent un classement assez resserré, utile pour départager les meilleurs modèles, mais potentiellement sensible à la saturation, à la formulation des prompts et au risque de contamination.


Sources des scores : llm-stats.