MT-Bench
MT-Bench est un benchmark multi-tours conçu par LMSYS Org (Zheng et al.) pour évaluer la qualité conversationnelle des grands modèles de langage. Il s’intéresse à leur capacité à suivre des consignes, à rester cohérents au fil d’un échange et à produire des réponses utiles, nuancées et…
MT-Bench est un benchmark multi-tours conçu par LMSYS Org (Zheng et al.) pour évaluer la qualité conversationnelle des grands modèles de langage. Il s’intéresse à leur capacité à suivre des consignes, à rester cohérents au fil d’un échange et à produire des réponses utiles, nuancées et informatives.
Le test couvre des situations ouvertes relevant notamment du raisonnement, de l’écriture, du jeu de rôle, des mathématiques, du code et des connaissances générales. Son usage repose sur un juge LLM, ce qui en fait un outil d’évaluation scalable des dialogues complexes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | LMSYS Org (Zheng et al.) |
| Capacités mesurées | communication, créativité, généraliste, raisonnement, jeu de rôle |
| Modalité | Texte |
| Type de questions | questions ouvertes multi-tours évaluées par un juge LLM |
| Métrique d'évaluation | score moyen attribué par un juge LLM, généralement sur une échelle de 1 à 10 puis parfois remis à l’échelle |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais |
| Taille du jeu | 80 questions multi-tours, soit environ 160 tours |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 12)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen2.5 72B Instruct | Qwen | 93,5 % | 19 septembre 2024 | Auto-déclaré |
| 2 | Llama-3.3 Nemotron Super 49B v1 | NVIDIA | 91,7 % | 18 mars 2025 | Auto-déclaré |
| 3 | DeepSeek-V2.5 | DeepSeek | 90,2 % | 8 mai 2024 | Auto-déclaré |
| 4 | Hermes 3 70B | Nous Research | 89,9 % | 15 août 2024 | Auto-déclaré |
| 5 | Qwen2.5 7B Instruct | Qwen | 87,5 % | 19 septembre 2024 | Auto-déclaré |
| 6 | Mistral Large 2 | Mistral AI | 86,3 % | 24 juillet 2024 | Auto-déclaré |
| 7 | Qwen2 7B Instruct | Qwen | 84,1 % | 23 juillet 2024 | Auto-déclaré |
| 8 | Mistral Small 3 24B Instruct | Mistral AI | 83,5 % | 30 janvier 2025 | Auto-déclaré |
| 9 | Ministral 8B Instruct | Mistral AI | 83,0 % | 16 octobre 2024 | Auto-déclaré |
| 10 | Llama 3.1 Nemotron Nano 8B V1 | NVIDIA | 81,0 % | 18 mars 2025 | Auto-déclaré |
| 11 | Pixtral-12B | Mistral AI | 76,8 % | 17 septembre 2024 | Auto-déclaré |
| 12 | Llama 3.1 Nemotron 70B Instruct | NVIDIA | 9,0 % | 1 octobre 2024 | Auto-déclaré |
Classement établi sur 12 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 85,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MT-Bench indique généralement une bonne aisance dans les conversations longues, avec une capacité à préserver le contexte, à répondre de façon pertinente et à traiter des tâches variées. La métrique repose toutefois sur l’appréciation d’un juge LLM, le plus souvent sur une échelle de 1 à 10 avant une éventuelle remise à l’échelle. Cette approche facilite l’évaluation de réponses ouvertes, mais elle dépend de la qualité et de la stabilité du juge utilisé. Dans la base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les interpréter comme des indications comparatives plutôt que comme des mesures entièrement contrôlées. Le classement montre un niveau global élevé, avec un score médian de 85 % sur les modèles suivis et Qwen2.5 72B Instruct en tête à 94 %. Les limites principales tiennent à la portée anglophone du benchmark, au risque de saturation sur un jeu restreint et à une possible contamination des données d’évaluation.
Sources des scores : llm-stats.