WMT24++

WMT24++ est un benchmark de traduction automatique multilingue créé par Google et Unbabel. Il étend WMT24 afin d’évaluer des systèmes de traduction et des grands modèles de langage dans des contextes linguistiques variés, avec des références humaines et des post-éditions.

WMT24++ est un benchmark de traduction automatique multilingue créé par Google et Unbabel. Il étend WMT24 afin d’évaluer des systèmes de traduction et des grands modèles de langage dans des contextes linguistiques variés, avec des références humaines et des post-éditions.

Le benchmark mesure la capacité à produire des traductions de qualité entre langues source et cible, sur plusieurs domaines d’usage. Son intérêt est de fournir un cadre commun pour comparer les modèles au-delà de quelques langues dominantes, en tenant compte de registres comme le littéraire, l’actualité, le social et la parole.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle et Unbabel
Capacités mesuréesTraduction automatique multilingue couvrant 55 langues et dialectes sur quatre domaines
ModalitéTexte
Type de questionstraduction automatique (source vers cible) avec references humaines et post-editions
Métrique d'évaluationmetriques automatiques de qualite de traduction (ex. MetricX, COMET, chrF)
AccèsPublic
Langues55 langues et dialectes
Taille du jeu55 langues et dialectes, 4 domaines (litteraire, news, social, parole)
Année de publication2025
RessourcesArticle scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Nemotron 3 Super (120B A12B)NVIDIA86,7 %11 mars 2026Auto-déclaré
2Nemotron 3 Nano (30B A3B)NVIDIA86,2 %15 décembre 2025Auto-déclaré
3Qwen3.7 MaxQwen85,8 %19 mai 2026Auto-déclaré
4Qwen3.7-PlusQwen84,6 %31 mai 2026Auto-déclaré
5Qwen3.6 PlusQwen84,3 %31 mars 2026Auto-déclaré
6Nemotron 3 Ultra (550B A55B)NVIDIA83,7 %4 juin 2026Auto-déclaré
7Command A+cohere81,0 %20 mai 2026Auto-déclaré
8Qwen3.5-397B-A17BQwen78,9 %16 février 2026Auto-déclaré
9Qwen3.5-122B-A10BQwen78,3 %24 février 2026Auto-déclaré
10Qwen3.5-27BQwen77,6 %24 février 2026Auto-déclaré
11Qwen3.5-35B-A3BQwen76,3 %24 février 2026Auto-déclaré
12Qwen3.5-9BQwen72,6 %2 mars 2026Auto-déclaré
13Qwen3.5-4BQwen66,6 %2 mars 2026Auto-déclaré
14Gemma 3 27BGoogle53,4 %12 mars 2025Auto-déclaré
15Gemma 3 12BGoogle51,6 %12 mars 2025Auto-déclaré
16Gemma 3n E4B InstructedGoogle50,1 %26 juin 2025Auto-déclaré
17Gemma 3n E4B Instructed LiteRT PreviewGoogle50,1 %20 mai 2025Auto-déclaré
18Gemma 3 4BGoogle46,8 %12 mars 2025Auto-déclaré
19Qwen3.5-2BQwen45,8 %2 mars 2026Auto-déclaré
20Gemma 3n E2B InstructedGoogle42,7 %26 juin 2025Auto-déclaré

Classement établi sur 23 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 72,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur WMT24++ indique une forte capacité à générer des traductions jugées proches de références humaines ou de post-éditions selon des métriques automatiques comme MetricX, COMET ou chrF. Le classement met en avant des modèles capables de maintenir une qualité élevée dans un cadre multilingue étendu, le meilleur résultat recensé dans la base étant celui de Nemotron 3 Super (120B A12B) (NVIDIA), à 87%, au-dessus d’une médiane d’ensemble de 73%.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles sans protocole de vérification homogène. Les métriques automatiques apportent une mesure reproductible, mais ne remplacent pas entièrement une évaluation humaine fine, notamment pour les nuances stylistiques, culturelles ou contextuelles. Le benchmark couvre 55 langues et dialectes et quatre domaines, ce qui renforce sa portée, mais ne garantit pas une couverture exhaustive de tous les usages de traduction. Comme tout jeu public, il peut aussi être exposé à des risques de contamination ou de saturation progressive.


Sources des scores : llm-stats.