Audio & parole

CoVoST2

CoVoST2 est un benchmark de traduction parole-texte multilingue, conçu pour évaluer la capacité d’un système à convertir des segments audio en texte dans une autre langue. Créé par Facebook AI Research (Meta AI) avec Changhan Wang et al., il s’appuie sur le corpus Common Voice et sert de…

Le benchmark mesure à la fois la compréhension acoustique, la reconnaissance de la parole et la traduction vers une langue cible. Il occupe donc une place utile pour comparer des modèles capables de traiter de la parole multilingue dans des conditions standardisées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Facebook AI Research (Meta AI), Changhan Wang et al.
Capacités mesurées	audio, langage, reconnaissance vocale
Modalité	Audio
Type de questions	traduction parole-texte : segments audio à traduire en texte dans une langue cible
Métrique d'évaluation	BLEU
Accès	Public
Licence	CC-BY-NC-4.0
Langues	multilingue : 21 langues vers l’anglais et anglais vers 15 langues
Taille du jeu	environ 2 880 heures de parole, 78 000 locuteurs
Année de publication	2020
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Nova 2 Omni	Amazon	40,7 %	2 décembre 2025	Auto-déclaré
2	Gemini 2.0 Flash	Google	39,2 %	21 janvier 2025	Auto-déclaré
3	Gemma 4 12B	Google	38,5 %	23 mai 2026	Auto-déclaré
4	Gemini 2.0 Flash-Lite	Google	38,4 %	5 février 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 38,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CoVoST2 indique une meilleure qualité de traduction parole-texte selon BLEU, avec une capacité à préserver le contenu d’un segment audio dans la langue cible. Dans la base considérée, l’écart entre le score médian et le meilleur résultat reste limité, Nova 2 Omni (Amazon) atteignant 41% contre une médiane de 39% sur les modèles évalués. Ce classement suggère des performances proches entre les systèmes recensés, sans établir à lui seul une domination nette.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement reproduite et contrôlée. CoVoST2 étant public et dérivé de Common Voice, un risque d’exposition préalable des données ne peut pas être écarté pour certains modèles. Sa portée reste également spécifique : il évalue la traduction de parole multilingue vers du texte, et non les capacités générales de raisonnement, de dialogue ou de compréhension multimodale.

Sources des scores : llm-stats.

CoVoST2

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23