Audio & parole

FLEURS

FLEURS est un benchmark de Google Research consacré à l’évaluation de la parole multilingue. Il s’appuie sur un jeu parallèle d’enregistrements audio, de transcriptions et d’étiquettes dans de nombreuses langues, afin de tester des systèmes capables de traiter la parole au-delà d’un seul…

Le benchmark mesure notamment la reconnaissance automatique de la parole, l’identification de la langue parlée et la qualité de représentations universelles de la parole en contexte few-shot. Il sert ainsi de point de comparaison pour des modèles audio et multimodaux sur des tâches de compréhension, traduction et recherche liées à la parole.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google Research
Capacités mesurées	langage, reconnaissance vocale
Modalité	Audio
Type de questions	enregistrements audio multilingues avec transcriptions et étiquettes, utilisés pour ASR, identification de langue, traduction et recherche
Métrique d'évaluation	accuracy (1 - word error rate)
Accès	Public
Licence	CC-BY-4.0
Langues	multilingue (102 langues)
Taille du jeu	environ 2009 énoncés parallèles par langue dans 102 langues, soit environ 12 heures de parole par langue
Année de publication	2022
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen2.5-Omni-7B	Qwen	95,9 %	27 mars 2025	Auto-déclaré
2	Gemini 1.0 Pro	Google	93,6 %	15 février 2024	n.d.
3	Gemini 1.5 Pro	Google	93,3 %	1 mai 2024	Auto-déclaré
4	Gemma 4 12B	Google	93,1 %	23 mai 2026	Auto-déclaré
5	Gemini 1.5 Flash	Google	90,4 %	1 mai 2024	Auto-déclaré
6	Gemini 1.5 Flash 8B	Google	86,4 %	15 mars 2024	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 93,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur FLEURS indique une faible erreur de transcription, puisque la métrique publiée correspond à l’accuracy calculée comme 1 - word error rate. Le niveau médian observé dans la base, 93 %, et le meilleur score, 96 % pour Qwen2.5-Omni-7B, suggèrent un classement assez resserré en haut de tableau. Cette proximité peut limiter la capacité du benchmark à distinguer finement les meilleurs modèles, surtout lorsque les écarts deviennent faibles.

La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la rigueur comparative par rapport à une évaluation entièrement indépendante et reproductible. Le caractère public du jeu impose aussi de considérer le risque de familiarité des modèles avec les données. Enfin, FLEURS mesure surtout des capacités liées à la parole multilingue, pas l’ensemble des compétences d’un modèle généraliste. L’indépendance est une limite importante : 5 des 6 modèles classés sont édités par Google, également créateur du benchmark, ce qui fragilise la comparaison entre modèles Google et modèles d’autres éditeurs.

Sources des scores : llm-stats.

FLEURS

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++