CoVoST2

CoVoST2 est un benchmark de traduction parole-texte multilingue, conçu pour évaluer la capacité d’un système à convertir des segments audio en texte dans une autre langue. Créé par Facebook AI Research (Meta AI) avec Changhan Wang et al., il s’appuie sur le corpus Common Voice et sert de…

CoVoST2 est un benchmark de traduction parole-texte multilingue, conçu pour évaluer la capacité d’un système à convertir des segments audio en texte dans une autre langue. Créé par Facebook AI Research (Meta AI) avec Changhan Wang et al., il s’appuie sur le corpus Common Voice et sert de référence pour la recherche en traduction automatique de la parole.

Le benchmark mesure à la fois la compréhension acoustique, la reconnaissance de la parole et la traduction vers une langue cible. Il occupe donc une place utile pour comparer des modèles capables de traiter de la parole multilingue dans des conditions standardisées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkFacebook AI Research (Meta AI), Changhan Wang et al.
Capacités mesuréesaudio, langage, reconnaissance vocale
ModalitéAudio
Type de questionstraduction parole-texte : segments audio à traduire en texte dans une langue cible
Métrique d'évaluationBLEU
AccèsPublic
LicenceCC-BY-NC-4.0
Languesmultilingue : 21 langues vers l’anglais et anglais vers 15 langues
Taille du jeuenviron 2 880 heures de parole, 78 000 locuteurs
Année de publication2020
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Nova 2 OmniAmazon40,7 %2 décembre 2025Auto-déclaré
2Gemini 2.0 FlashGoogle39,2 %21 janvier 2025Auto-déclaré
3Gemma 4 12BGoogle38,5 %23 mai 2026Auto-déclaré
4Gemini 2.0 Flash-LiteGoogle38,4 %5 février 2025Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 38,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CoVoST2 indique une meilleure qualité de traduction parole-texte selon BLEU, avec une capacité à préserver le contenu d’un segment audio dans la langue cible. Dans la base considérée, l’écart entre le score médian et le meilleur résultat reste limité, Nova 2 Omni (Amazon) atteignant 41% contre une médiane de 39% sur les modèles évalués. Ce classement suggère des performances proches entre les systèmes recensés, sans établir à lui seul une domination nette.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement reproduite et contrôlée. CoVoST2 étant public et dérivé de Common Voice, un risque d’exposition préalable des données ne peut pas être écarté pour certains modèles. Sa portée reste également spécifique : il évalue la traduction de parole multilingue vers du texte, et non les capacités générales de raisonnement, de dialogue ou de compréhension multimodale.


Sources des scores : llm-stats.