Langage & rédaction

WMT23

WMT23 est un benchmark issu de la Conference on Machine Translation, publié en 2023, consacré à l’évaluation de systèmes de traduction automatique. Il couvre plusieurs contextes d’usage, dont la traduction générale, biomédicale, littéraire et des langues peu dotées, afin d’observer la…

Le benchmark combine des jugements humains professionnels et des métriques automatiques comme BLEU ou COMET. Il sert ainsi de point de comparaison pour mesurer la qualité de traduction sur plusieurs paires de langues et directions, avec un rôle central dans l’évaluation multilingue des modèles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Conference on Machine Translation (WMT)
Capacités mesurées	Évaluation de systèmes de traduction automatique sur plusieurs domaines (général, biomédical, littéraire) et directions de langues
Modalité	Texte
Type de questions	traduction automatique
Métrique d'évaluation	évaluation humaine + métriques automatiques (BLEU, COMET, etc.)
Accès	Public
Langues	multilingue (général, biomédical, littéraire, langues peu dotées)
Taille du jeu	8 paires de langues (14 directions de traduction)
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 1.5 Pro	Google	75,1 %	1 mai 2024	Auto-déclaré
2	Gemini 1.5 Flash	Google	74,1 %	1 mai 2024	Auto-déclaré
3	Gemini 1.5 Flash 8B	Google	72,6 %	15 mars 2024	Auto-déclaré
4	Gemini 1.0 Pro	Google	71,7 %	15 février 2024	n.d.

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 73,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur WMT23 indique une capacité à produire des traductions jugées solides dans des contextes variés, avec une cohérence suffisante entre domaines, langues et directions de traduction. La présence d’une évaluation humaine renforce la valeur du benchmark, car elle complète les métriques automatiques, souvent utiles mais imparfaites pour saisir la fidélité, le style ou la qualité discursive. Dans la base, quatre modèles sont évalués, avec un score médian de 73 % et un meilleur résultat attribué à Gemini 1.5 Pro (Google) à 75 %, ce qui suggère un classement assez resserré plutôt qu’une domination nette. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le caractère public du benchmark peut aussi limiter sa capacité à mesurer une généralisation totalement indépendante, notamment en cas de contamination des données d’entraînement. Enfin, sa portée reste celle de la traduction automatique, et ne résume pas les capacités linguistiques générales d’un modèle.

Sources des scores : llm-stats.

WMT23

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench