FLEURS
FLEURS est un benchmark de Google Research consacré à l’évaluation de la parole multilingue. Il s’appuie sur un jeu parallèle d’enregistrements audio, de transcriptions et d’étiquettes dans de nombreuses langues, afin de tester des systèmes capables de traiter la parole au-delà d’un seul…
FLEURS est un benchmark de Google Research consacré à l’évaluation de la parole multilingue. Il s’appuie sur un jeu parallèle d’enregistrements audio, de transcriptions et d’étiquettes dans de nombreuses langues, afin de tester des systèmes capables de traiter la parole au-delà d’un seul contexte linguistique.
Le benchmark mesure notamment la reconnaissance automatique de la parole, l’identification de la langue parlée et la qualité de représentations universelles de la parole en contexte few-shot. Il sert ainsi de point de comparaison pour des modèles audio et multimodaux sur des tâches de compréhension, traduction et recherche liées à la parole.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google Research |
| Capacités mesurées | langage, reconnaissance vocale |
| Modalité | Audio |
| Type de questions | enregistrements audio multilingues avec transcriptions et étiquettes, utilisés pour ASR, identification de langue, traduction et recherche |
| Métrique d'évaluation | accuracy (1 - word error rate) |
| Accès | Public |
| Licence | CC-BY-4.0 |
| Langues | multilingue (102 langues) |
| Taille du jeu | environ 2009 énoncés parallèles par langue dans 102 langues, soit environ 12 heures de parole par langue |
| Année de publication | 2022 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen2.5-Omni-7B | Qwen | 95,9 % | 27 mars 2025 | Auto-déclaré |
| 2 | Gemini 1.0 Pro | 93,6 % | 15 février 2024 | n.d. | |
| 3 | Gemini 1.5 Pro | 93,3 % | 1 mai 2024 | Auto-déclaré | |
| 4 | Gemma 4 12B | 93,1 % | 23 mai 2026 | Auto-déclaré | |
| 5 | Gemini 1.5 Flash | 90,4 % | 1 mai 2024 | Auto-déclaré | |
| 6 | Gemini 1.5 Flash 8B | 86,4 % | 15 mars 2024 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 93,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur FLEURS indique une faible erreur de transcription, puisque la métrique publiée correspond à l’accuracy calculée comme 1 - word error rate. Le niveau médian observé dans la base, 93 %, et le meilleur score, 96 % pour Qwen2.5-Omni-7B, suggèrent un classement assez resserré en haut de tableau. Cette proximité peut limiter la capacité du benchmark à distinguer finement les meilleurs modèles, surtout lorsque les écarts deviennent faibles.
La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la rigueur comparative par rapport à une évaluation entièrement indépendante et reproductible. Le caractère public du jeu impose aussi de considérer le risque de familiarité des modèles avec les données. Enfin, FLEURS mesure surtout des capacités liées à la parole multilingue, pas l’ensemble des compétences d’un modèle généraliste. L’indépendance est une limite importante : 5 des 6 modèles classés sont édités par Google, également créateur du benchmark, ce qui fragilise la comparaison entre modèles Google et modèles d’autres éditeurs.
Sources des scores : llm-stats.