Langage & rédaction

MT-Bench

MT-Bench est un benchmark multi-tours conçu par LMSYS Org (Zheng et al.) pour évaluer la qualité conversationnelle des grands modèles de langage. Il s’intéresse à leur capacité à suivre des consignes, à rester cohérents au fil d’un échange et à produire des réponses utiles, nuancées et…

Le test couvre des situations ouvertes relevant notamment du raisonnement, de l’écriture, du jeu de rôle, des mathématiques, du code et des connaissances générales. Son usage repose sur un juge LLM, ce qui en fait un outil d’évaluation scalable des dialogues complexes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	LMSYS Org (Zheng et al.)
Capacités mesurées	communication, créativité, généraliste, raisonnement, jeu de rôle
Modalité	Texte
Type de questions	questions ouvertes multi-tours évaluées par un juge LLM
Métrique d'évaluation	score moyen attribué par un juge LLM, généralement sur une échelle de 1 à 10 puis parfois remis à l’échelle
Accès	Public
Licence	Apache-2.0
Langues	anglais
Taille du jeu	80 questions multi-tours, soit environ 160 tours
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 12)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen2.5 72B Instruct	Qwen	93,5 %	19 septembre 2024	Auto-déclaré
2	Llama-3.3 Nemotron Super 49B v1	NVIDIA	91,7 %	18 mars 2025	Auto-déclaré
3	DeepSeek-V2.5	DeepSeek	90,2 %	8 mai 2024	Auto-déclaré
4	Hermes 3 70B	Nous Research	89,9 %	15 août 2024	Auto-déclaré
5	Qwen2.5 7B Instruct	Qwen	87,5 %	19 septembre 2024	Auto-déclaré
6	Mistral Large 2	Mistral AI	86,3 %	24 juillet 2024	Auto-déclaré
7	Qwen2 7B Instruct	Qwen	84,1 %	23 juillet 2024	Auto-déclaré
8	Mistral Small 3 24B Instruct	Mistral AI	83,5 %	30 janvier 2025	Auto-déclaré
9	Ministral 8B Instruct	Mistral AI	83,0 %	16 octobre 2024	Auto-déclaré
10	Llama 3.1 Nemotron Nano 8B V1	NVIDIA	81,0 %	18 mars 2025	Auto-déclaré
11	Pixtral-12B	Mistral AI	76,8 %	17 septembre 2024	Auto-déclaré
12	Llama 3.1 Nemotron 70B Instruct	NVIDIA	9,0 %	1 octobre 2024	Auto-déclaré

Classement établi sur 12 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 85,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MT-Bench indique généralement une bonne aisance dans les conversations longues, avec une capacité à préserver le contexte, à répondre de façon pertinente et à traiter des tâches variées. La métrique repose toutefois sur l’appréciation d’un juge LLM, le plus souvent sur une échelle de 1 à 10 avant une éventuelle remise à l’échelle. Cette approche facilite l’évaluation de réponses ouvertes, mais elle dépend de la qualité et de la stabilité du juge utilisé. Dans la base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les interpréter comme des indications comparatives plutôt que comme des mesures entièrement contrôlées. Le classement montre un niveau global élevé, avec un score médian de 85 % sur les modèles suivis et Qwen2.5 72B Instruct en tête à 94 %. Les limites principales tiennent à la portée anglophone du benchmark, au risque de saturation sur un jeu restreint et à une possible contamination des données d’évaluation.

Sources des scores : llm-stats.

MT-Bench

Carte d'identité

Classement des modèles (top 12)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23