Creative Writing v3
Creative Writing v3 est un benchmark public d’EQ-Bench, créé par Samuel J. Paech, consacré à l’évaluation de l’écriture créative des modèles de langage. Il s’appuie sur des réponses à des prompts d’écriture, jugées par un LLM, afin d’examiner des dimensions comme l’humour, la romance, la…
Creative Writing v3 est un benchmark public d’EQ-Bench, créé par Samuel J. Paech, consacré à l’évaluation de l’écriture créative des modèles de langage. Il s’appuie sur des réponses à des prompts d’écriture, jugées par un LLM, afin d’examiner des dimensions comme l’humour, la romance, la conscience spatiale et la capacité à produire des perspectives originales.
Le benchmark vise surtout à discriminer les modèles situés en haut du classement, là où les écarts deviennent difficiles à observer avec des tests plus généraux. Il sert ainsi d’indicateur spécialisé pour comparer la créativité rédactionnelle et certaines formes d’intelligence émotionnelle en anglais.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | EQ-Bench (Samuel J. Paech) |
| Capacités mesurées | Écriture créative : humour, romance, conscience spatiale, perspectives originales ; discrimination fine au sommet du classement. |
| Modalité | Texte |
| Type de questions | Écriture créative jugée par LLM (réponses à des prompts d'écriture) |
| Métrique d'évaluation | Score hybride : notation par rubrique + Elo (Glicko-2) sur comparaisons pairwise ; juge Claude Sonnet 4.6 |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 32 prompts × 3 itérations = 96 items |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 12)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 1 495 | 22 juillet 2025 | Auto-déclaré |
| 2 | Qwen3 VL 235B A22B Instruct | Qwen | 1 478 | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 1 471 | 25 juillet 2025 | Auto-déclaré |
| 4 | Qwen3 VL 235B A22B Thinking | Qwen | 1 464 | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 32B Instruct | Qwen | 1 463 | 22 septembre 2025 | Auto-déclaré |
| 6 | Grok-4.1 | xAI | 1 460 | 17 novembre 2025 | Auto-déclaré |
| 7 | Qwen3-Next-80B-A3B-Instruct | Qwen | 1 457 | 10 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 30B A3B Instruct | Qwen | 1 445 | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 32B Thinking | Qwen | 1 423 | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 30B A3B Thinking | Qwen | 1 410 | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 8B Thinking | Qwen | 1 408 | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 4B Thinking | Qwen | 1 300 | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Creative Writing v3 indique qu’un modèle produit des textes jugés plus convaincants dans des tâches créatives variées, avec une meilleure maîtrise du ton, de l’originalité, de la cohérence narrative et de situations demandant une représentation spatiale ou émotionnelle fine. L’évaluation combine une notation par rubrique et des comparaisons pairwise converties en Elo via Glicko-2, avec Claude Sonnet 4.6 comme juge, ce qui apporte une structure plus robuste qu’une simple note isolée. La fiabilité reste toutefois à interpréter avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. La portée est aussi limitée à l’anglais et à 96 items issus de 32 prompts répétés sur trois itérations, ce qui ne couvre pas toute la diversité de l’écriture créative. Le score médian de 85 % et le meilleur résultat à 88 % suggèrent un classement assez resserré, utile pour départager les meilleurs modèles, mais potentiellement sensible à la saturation, à la formulation des prompts et au risque de contamination.
Sources des scores : llm-stats.