WMT24++
WMT24++ est un benchmark de traduction automatique multilingue créé par Google et Unbabel. Il étend WMT24 afin d’évaluer des systèmes de traduction et des grands modèles de langage dans des contextes linguistiques variés, avec des références humaines et des post-éditions.
WMT24++ est un benchmark de traduction automatique multilingue créé par Google et Unbabel. Il étend WMT24 afin d’évaluer des systèmes de traduction et des grands modèles de langage dans des contextes linguistiques variés, avec des références humaines et des post-éditions.
Le benchmark mesure la capacité à produire des traductions de qualité entre langues source et cible, sur plusieurs domaines d’usage. Son intérêt est de fournir un cadre commun pour comparer les modèles au-delà de quelques langues dominantes, en tenant compte de registres comme le littéraire, l’actualité, le social et la parole.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google et Unbabel |
| Capacités mesurées | Traduction automatique multilingue couvrant 55 langues et dialectes sur quatre domaines |
| Modalité | Texte |
| Type de questions | traduction automatique (source vers cible) avec references humaines et post-editions |
| Métrique d'évaluation | metriques automatiques de qualite de traduction (ex. MetricX, COMET, chrF) |
| Accès | Public |
| Langues | 55 langues et dialectes |
| Taille du jeu | 55 langues et dialectes, 4 domaines (litteraire, news, social, parole) |
| Année de publication | 2025 |
| Ressources | Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Nemotron 3 Super (120B A12B) | NVIDIA | 86,7 % | 11 mars 2026 | Auto-déclaré |
| 2 | Nemotron 3 Nano (30B A3B) | NVIDIA | 86,2 % | 15 décembre 2025 | Auto-déclaré |
| 3 | Qwen3.7 Max | Qwen | 85,8 % | 19 mai 2026 | Auto-déclaré |
| 4 | Qwen3.7-Plus | Qwen | 84,6 % | 31 mai 2026 | Auto-déclaré |
| 5 | Qwen3.6 Plus | Qwen | 84,3 % | 31 mars 2026 | Auto-déclaré |
| 6 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 83,7 % | 4 juin 2026 | Auto-déclaré |
| 7 | Command A+ | cohere | 81,0 % | 20 mai 2026 | Auto-déclaré |
| 8 | Qwen3.5-397B-A17B | Qwen | 78,9 % | 16 février 2026 | Auto-déclaré |
| 9 | Qwen3.5-122B-A10B | Qwen | 78,3 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3.5-27B | Qwen | 77,6 % | 24 février 2026 | Auto-déclaré |
| 11 | Qwen3.5-35B-A3B | Qwen | 76,3 % | 24 février 2026 | Auto-déclaré |
| 12 | Qwen3.5-9B | Qwen | 72,6 % | 2 mars 2026 | Auto-déclaré |
| 13 | Qwen3.5-4B | Qwen | 66,6 % | 2 mars 2026 | Auto-déclaré |
| 14 | Gemma 3 27B | 53,4 % | 12 mars 2025 | Auto-déclaré | |
| 15 | Gemma 3 12B | 51,6 % | 12 mars 2025 | Auto-déclaré | |
| 16 | Gemma 3n E4B Instructed | 50,1 % | 26 juin 2025 | Auto-déclaré | |
| 17 | Gemma 3n E4B Instructed LiteRT Preview | 50,1 % | 20 mai 2025 | Auto-déclaré | |
| 18 | Gemma 3 4B | 46,8 % | 12 mars 2025 | Auto-déclaré | |
| 19 | Qwen3.5-2B | Qwen | 45,8 % | 2 mars 2026 | Auto-déclaré |
| 20 | Gemma 3n E2B Instructed | 42,7 % | 26 juin 2025 | Auto-déclaré |
Classement établi sur 23 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 72,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur WMT24++ indique une forte capacité à générer des traductions jugées proches de références humaines ou de post-éditions selon des métriques automatiques comme MetricX, COMET ou chrF. Le classement met en avant des modèles capables de maintenir une qualité élevée dans un cadre multilingue étendu, le meilleur résultat recensé dans la base étant celui de Nemotron 3 Super (120B A12B) (NVIDIA), à 87%, au-dessus d’une médiane d’ensemble de 73%.
La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles sans protocole de vérification homogène. Les métriques automatiques apportent une mesure reproductible, mais ne remplacent pas entièrement une évaluation humaine fine, notamment pour les nuances stylistiques, culturelles ou contextuelles. Le benchmark couvre 55 langues et dialectes et quatre domaines, ce qui renforce sa portée, mais ne garantit pas une couverture exhaustive de tous les usages de traduction. Comme tout jeu public, il peut aussi être exposé à des risques de contamination ou de saturation progressive.
Sources des scores : llm-stats.