MT-Bench

MT-Bench est un benchmark multi-tours conçu par LMSYS Org (Zheng et al.) pour évaluer la qualité conversationnelle des grands modèles de langage. Il s’intéresse à leur capacité à suivre des consignes, à rester cohérents au fil d’un échange et à produire des réponses utiles, nuancées et…

MT-Bench est un benchmark multi-tours conçu par LMSYS Org (Zheng et al.) pour évaluer la qualité conversationnelle des grands modèles de langage. Il s’intéresse à leur capacité à suivre des consignes, à rester cohérents au fil d’un échange et à produire des réponses utiles, nuancées et informatives.

Le test couvre des situations ouvertes relevant notamment du raisonnement, de l’écriture, du jeu de rôle, des mathématiques, du code et des connaissances générales. Son usage repose sur un juge LLM, ce qui en fait un outil d’évaluation scalable des dialogues complexes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLMSYS Org (Zheng et al.)
Capacités mesuréescommunication, créativité, généraliste, raisonnement, jeu de rôle
ModalitéTexte
Type de questionsquestions ouvertes multi-tours évaluées par un juge LLM
Métrique d'évaluationscore moyen attribué par un juge LLM, généralement sur une échelle de 1 à 10 puis parfois remis à l’échelle
AccèsPublic
LicenceApache-2.0
Languesanglais
Taille du jeu80 questions multi-tours, soit environ 160 tours
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 12)

#ModèleÉditeurScoreSortieFiabilité
1Qwen2.5 72B InstructQwen93,5 %19 septembre 2024Auto-déclaré
2Llama-3.3 Nemotron Super 49B v1NVIDIA91,7 %18 mars 2025Auto-déclaré
3DeepSeek-V2.5DeepSeek90,2 %8 mai 2024Auto-déclaré
4Hermes 3 70BNous Research89,9 %15 août 2024Auto-déclaré
5Qwen2.5 7B InstructQwen87,5 %19 septembre 2024Auto-déclaré
6Mistral Large 2Mistral AI86,3 %24 juillet 2024Auto-déclaré
7Qwen2 7B InstructQwen84,1 %23 juillet 2024Auto-déclaré
8Mistral Small 3 24B InstructMistral AI83,5 %30 janvier 2025Auto-déclaré
9Ministral 8B InstructMistral AI83,0 %16 octobre 2024Auto-déclaré
10Llama 3.1 Nemotron Nano 8B V1NVIDIA81,0 %18 mars 2025Auto-déclaré
11Pixtral-12BMistral AI76,8 %17 septembre 2024Auto-déclaré
12Llama 3.1 Nemotron 70B InstructNVIDIA9,0 %1 octobre 2024Auto-déclaré

Classement établi sur 12 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 85,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MT-Bench indique généralement une bonne aisance dans les conversations longues, avec une capacité à préserver le contexte, à répondre de façon pertinente et à traiter des tâches variées. La métrique repose toutefois sur l’appréciation d’un juge LLM, le plus souvent sur une échelle de 1 à 10 avant une éventuelle remise à l’échelle. Cette approche facilite l’évaluation de réponses ouvertes, mais elle dépend de la qualité et de la stabilité du juge utilisé. Dans la base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les interpréter comme des indications comparatives plutôt que comme des mesures entièrement contrôlées. Le classement montre un niveau global élevé, avec un score médian de 85 % sur les modèles suivis et Qwen2.5 72B Instruct en tête à 94 %. Les limites principales tiennent à la portée anglophone du benchmark, au risque de saturation sur un jeu restreint et à une possible contamination des données d’évaluation.


Sources des scores : llm-stats.