CoVoST2
CoVoST2 est un benchmark de traduction parole-texte multilingue, conçu pour évaluer la capacité d’un système à convertir des segments audio en texte dans une autre langue. Créé par Facebook AI Research (Meta AI) avec Changhan Wang et al., il s’appuie sur le corpus Common Voice et sert de…
CoVoST2 est un benchmark de traduction parole-texte multilingue, conçu pour évaluer la capacité d’un système à convertir des segments audio en texte dans une autre langue. Créé par Facebook AI Research (Meta AI) avec Changhan Wang et al., il s’appuie sur le corpus Common Voice et sert de référence pour la recherche en traduction automatique de la parole.
Le benchmark mesure à la fois la compréhension acoustique, la reconnaissance de la parole et la traduction vers une langue cible. Il occupe donc une place utile pour comparer des modèles capables de traiter de la parole multilingue dans des conditions standardisées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Facebook AI Research (Meta AI), Changhan Wang et al. |
| Capacités mesurées | audio, langage, reconnaissance vocale |
| Modalité | Audio |
| Type de questions | traduction parole-texte : segments audio à traduire en texte dans une langue cible |
| Métrique d'évaluation | BLEU |
| Accès | Public |
| Licence | CC-BY-NC-4.0 |
| Langues | multilingue : 21 langues vers l’anglais et anglais vers 15 langues |
| Taille du jeu | environ 2 880 heures de parole, 78 000 locuteurs |
| Année de publication | 2020 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Nova 2 Omni | Amazon | 40,7 % | 2 décembre 2025 | Auto-déclaré |
| 2 | Gemini 2.0 Flash | 39,2 % | 21 janvier 2025 | Auto-déclaré | |
| 3 | Gemma 4 12B | 38,5 % | 23 mai 2026 | Auto-déclaré | |
| 4 | Gemini 2.0 Flash-Lite | 38,4 % | 5 février 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 38,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CoVoST2 indique une meilleure qualité de traduction parole-texte selon BLEU, avec une capacité à préserver le contenu d’un segment audio dans la langue cible. Dans la base considérée, l’écart entre le score médian et le meilleur résultat reste limité, Nova 2 Omni (Amazon) atteignant 41% contre une médiane de 39% sur les modèles évalués. Ce classement suggère des performances proches entre les systèmes recensés, sans établir à lui seul une domination nette.
La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement reproduite et contrôlée. CoVoST2 étant public et dérivé de Common Voice, un risque d’exposition préalable des données ne peut pas être écarté pour certains modèles. Sa portée reste également spécifique : il évalue la traduction de parole multilingue vers du texte, et non les capacités générales de raisonnement, de dialogue ou de compréhension multimodale.
Sources des scores : llm-stats.