FLEURS

FLEURS est un benchmark de Google Research consacré à l’évaluation de la parole multilingue. Il s’appuie sur un jeu parallèle d’enregistrements audio, de transcriptions et d’étiquettes dans de nombreuses langues, afin de tester des systèmes capables de traiter la parole au-delà d’un seul…

FLEURS est un benchmark de Google Research consacré à l’évaluation de la parole multilingue. Il s’appuie sur un jeu parallèle d’enregistrements audio, de transcriptions et d’étiquettes dans de nombreuses langues, afin de tester des systèmes capables de traiter la parole au-delà d’un seul contexte linguistique.

Le benchmark mesure notamment la reconnaissance automatique de la parole, l’identification de la langue parlée et la qualité de représentations universelles de la parole en contexte few-shot. Il sert ainsi de point de comparaison pour des modèles audio et multimodaux sur des tâches de compréhension, traduction et recherche liées à la parole.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle Research
Capacités mesuréeslangage, reconnaissance vocale
ModalitéAudio
Type de questionsenregistrements audio multilingues avec transcriptions et étiquettes, utilisés pour ASR, identification de langue, traduction et recherche
Métrique d'évaluationaccuracy (1 - word error rate)
AccèsPublic
LicenceCC-BY-4.0
Languesmultilingue (102 langues)
Taille du jeuenviron 2009 énoncés parallèles par langue dans 102 langues, soit environ 12 heures de parole par langue
Année de publication2022
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Qwen2.5-Omni-7BQwen95,9 %27 mars 2025Auto-déclaré
2Gemini 1.0 ProGoogle93,6 %15 février 2024n.d.
3Gemini 1.5 ProGoogle93,3 %1 mai 2024Auto-déclaré
4Gemma 4 12BGoogle93,1 %23 mai 2026Auto-déclaré
5Gemini 1.5 FlashGoogle90,4 %1 mai 2024Auto-déclaré
6Gemini 1.5 Flash 8BGoogle86,4 %15 mars 2024Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 93,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur FLEURS indique une faible erreur de transcription, puisque la métrique publiée correspond à l’accuracy calculée comme 1 - word error rate. Le niveau médian observé dans la base, 93 %, et le meilleur score, 96 % pour Qwen2.5-Omni-7B, suggèrent un classement assez resserré en haut de tableau. Cette proximité peut limiter la capacité du benchmark à distinguer finement les meilleurs modèles, surtout lorsque les écarts deviennent faibles.

La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la rigueur comparative par rapport à une évaluation entièrement indépendante et reproductible. Le caractère public du jeu impose aussi de considérer le risque de familiarité des modèles avec les données. Enfin, FLEURS mesure surtout des capacités liées à la parole multilingue, pas l’ensemble des compétences d’un modèle généraliste. L’indépendance est une limite importante : 5 des 6 modèles classés sont édités par Google, également créateur du benchmark, ce qui fragilise la comparaison entre modèles Google et modèles d’autres éditeurs.


Sources des scores : llm-stats.