Langage & rédaction

WMT24++

WMT24++ est un benchmark de traduction automatique multilingue créé par Google et Unbabel. Il étend WMT24 afin d’évaluer des systèmes de traduction et des grands modèles de langage dans des contextes linguistiques variés, avec des références humaines et des post-éditions.

Le benchmark mesure la capacité à produire des traductions de qualité entre langues source et cible, sur plusieurs domaines d’usage. Son intérêt est de fournir un cadre commun pour comparer les modèles au-delà de quelques langues dominantes, en tenant compte de registres comme le littéraire, l’actualité, le social et la parole.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google et Unbabel
Capacités mesurées	Traduction automatique multilingue couvrant 55 langues et dialectes sur quatre domaines
Modalité	Texte
Type de questions	traduction automatique (source vers cible) avec references humaines et post-editions
Métrique d'évaluation	metriques automatiques de qualite de traduction (ex. MetricX, COMET, chrF)
Accès	Public
Langues	55 langues et dialectes
Taille du jeu	55 langues et dialectes, 4 domaines (litteraire, news, social, parole)
Année de publication	2025
Ressources	Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Nemotron 3 Super (120B A12B)	NVIDIA	86,7 %	11 mars 2026	Auto-déclaré
2	Nemotron 3 Nano (30B A3B)	NVIDIA	86,2 %	15 décembre 2025	Auto-déclaré
3	Qwen3.7 Max	Qwen	85,8 %	19 mai 2026	Auto-déclaré
4	Qwen3.7-Plus	Qwen	84,6 %	31 mai 2026	Auto-déclaré
5	Qwen3.6 Plus	Qwen	84,3 %	31 mars 2026	Auto-déclaré
6	Nemotron 3 Ultra (550B A55B)	NVIDIA	83,7 %	4 juin 2026	Auto-déclaré
7	Command A+	cohere	81,0 %	20 mai 2026	Auto-déclaré
8	Qwen3.5-397B-A17B	Qwen	78,9 %	16 février 2026	Auto-déclaré
9	Qwen3.5-122B-A10B	Qwen	78,3 %	24 février 2026	Auto-déclaré
10	Qwen3.5-27B	Qwen	77,6 %	24 février 2026	Auto-déclaré
11	Qwen3.5-35B-A3B	Qwen	76,3 %	24 février 2026	Auto-déclaré
12	Qwen3.5-9B	Qwen	72,6 %	2 mars 2026	Auto-déclaré
13	Qwen3.5-4B	Qwen	66,6 %	2 mars 2026	Auto-déclaré
14	Gemma 3 27B	Google	53,4 %	12 mars 2025	Auto-déclaré
15	Gemma 3 12B	Google	51,6 %	12 mars 2025	Auto-déclaré
16	Gemma 3n E4B Instructed	Google	50,1 %	26 juin 2025	Auto-déclaré
17	Gemma 3n E4B Instructed LiteRT Preview	Google	50,1 %	20 mai 2025	Auto-déclaré
18	Gemma 3 4B	Google	46,8 %	12 mars 2025	Auto-déclaré
19	Qwen3.5-2B	Qwen	45,8 %	2 mars 2026	Auto-déclaré
20	Gemma 3n E2B Instructed	Google	42,7 %	26 juin 2025	Auto-déclaré

Classement établi sur 23 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 72,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur WMT24++ indique une forte capacité à générer des traductions jugées proches de références humaines ou de post-éditions selon des métriques automatiques comme MetricX, COMET ou chrF. Le classement met en avant des modèles capables de maintenir une qualité élevée dans un cadre multilingue étendu, le meilleur résultat recensé dans la base étant celui de Nemotron 3 Super (120B A12B) (NVIDIA), à 87%, au-dessus d’une médiane d’ensemble de 73%.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles sans protocole de vérification homogène. Les métriques automatiques apportent une mesure reproductible, mais ne remplacent pas entièrement une évaluation humaine fine, notamment pour les nuances stylistiques, culturelles ou contextuelles. Le benchmark couvre 55 langues et dialectes et quatre domaines, ce qui renforce sa portée, mais ne garantit pas une couverture exhaustive de tous les usages de traduction. Comme tout jeu public, il peut aussi être exposé à des risques de contamination ou de saturation progressive.

Sources des scores : llm-stats.

WMT24++

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench