WMT23

WMT23 est un benchmark issu de la Conference on Machine Translation, publié en 2023, consacré à l’évaluation de systèmes de traduction automatique. Il couvre plusieurs contextes d’usage, dont la traduction générale, biomédicale, littéraire et des langues peu dotées, afin d’observer la…

WMT23 est un benchmark issu de la Conference on Machine Translation, publié en 2023, consacré à l’évaluation de systèmes de traduction automatique. Il couvre plusieurs contextes d’usage, dont la traduction générale, biomédicale, littéraire et des langues peu dotées, afin d’observer la robustesse des modèles au-delà d’un seul registre.

Le benchmark combine des jugements humains professionnels et des métriques automatiques comme BLEU ou COMET. Il sert ainsi de point de comparaison pour mesurer la qualité de traduction sur plusieurs paires de langues et directions, avec un rôle central dans l’évaluation multilingue des modèles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkConference on Machine Translation (WMT)
Capacités mesuréesÉvaluation de systèmes de traduction automatique sur plusieurs domaines (général, biomédical, littéraire) et directions de langues
ModalitéTexte
Type de questionstraduction automatique
Métrique d'évaluationévaluation humaine + métriques automatiques (BLEU, COMET, etc.)
AccèsPublic
Languesmultilingue (général, biomédical, littéraire, langues peu dotées)
Taille du jeu8 paires de langues (14 directions de traduction)
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 1.5 ProGoogle75,1 %1 mai 2024Auto-déclaré
2Gemini 1.5 FlashGoogle74,1 %1 mai 2024Auto-déclaré
3Gemini 1.5 Flash 8BGoogle72,6 %15 mars 2024Auto-déclaré
4Gemini 1.0 ProGoogle71,7 %15 février 2024n.d.

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 73,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur WMT23 indique une capacité à produire des traductions jugées solides dans des contextes variés, avec une cohérence suffisante entre domaines, langues et directions de traduction. La présence d’une évaluation humaine renforce la valeur du benchmark, car elle complète les métriques automatiques, souvent utiles mais imparfaites pour saisir la fidélité, le style ou la qualité discursive. Dans la base, quatre modèles sont évalués, avec un score médian de 73 % et un meilleur résultat attribué à Gemini 1.5 Pro (Google) à 75 %, ce qui suggère un classement assez resserré plutôt qu’une domination nette. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le caractère public du benchmark peut aussi limiter sa capacité à mesurer une généralisation totalement indépendante, notamment en cas de contamination des données d’entraînement. Enfin, sa portée reste celle de la traduction automatique, et ne résume pas les capacités linguistiques générales d’un modèle.


Sources des scores : llm-stats.