WMT23
WMT23 est un benchmark issu de la Conference on Machine Translation, publié en 2023, consacré à l’évaluation de systèmes de traduction automatique. Il couvre plusieurs contextes d’usage, dont la traduction générale, biomédicale, littéraire et des langues peu dotées, afin d’observer la…
WMT23 est un benchmark issu de la Conference on Machine Translation, publié en 2023, consacré à l’évaluation de systèmes de traduction automatique. Il couvre plusieurs contextes d’usage, dont la traduction générale, biomédicale, littéraire et des langues peu dotées, afin d’observer la robustesse des modèles au-delà d’un seul registre.
Le benchmark combine des jugements humains professionnels et des métriques automatiques comme BLEU ou COMET. Il sert ainsi de point de comparaison pour mesurer la qualité de traduction sur plusieurs paires de langues et directions, avec un rôle central dans l’évaluation multilingue des modèles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Conference on Machine Translation (WMT) |
| Capacités mesurées | Évaluation de systèmes de traduction automatique sur plusieurs domaines (général, biomédical, littéraire) et directions de langues |
| Modalité | Texte |
| Type de questions | traduction automatique |
| Métrique d'évaluation | évaluation humaine + métriques automatiques (BLEU, COMET, etc.) |
| Accès | Public |
| Langues | multilingue (général, biomédical, littéraire, langues peu dotées) |
| Taille du jeu | 8 paires de langues (14 directions de traduction) |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 1.5 Pro | 75,1 % | 1 mai 2024 | Auto-déclaré | |
| 2 | Gemini 1.5 Flash | 74,1 % | 1 mai 2024 | Auto-déclaré | |
| 3 | Gemini 1.5 Flash 8B | 72,6 % | 15 mars 2024 | Auto-déclaré | |
| 4 | Gemini 1.0 Pro | 71,7 % | 15 février 2024 | n.d. |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 73,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur WMT23 indique une capacité à produire des traductions jugées solides dans des contextes variés, avec une cohérence suffisante entre domaines, langues et directions de traduction. La présence d’une évaluation humaine renforce la valeur du benchmark, car elle complète les métriques automatiques, souvent utiles mais imparfaites pour saisir la fidélité, le style ou la qualité discursive. Dans la base, quatre modèles sont évalués, avec un score médian de 73 % et un meilleur résultat attribué à Gemini 1.5 Pro (Google) à 75 %, ce qui suggère un classement assez resserré plutôt qu’une domination nette. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le caractère public du benchmark peut aussi limiter sa capacité à mesurer une généralisation totalement indépendante, notamment en cas de contamination des données d’entraînement. Enfin, sa portée reste celle de la traduction automatique, et ne résume pas les capacités linguistiques générales d’un modèle.
Sources des scores : llm-stats.