ECLeKTic

ECLeKTic est un benchmark de Google Research et Google DeepMind consacré au transfert de connaissances cross-lingue dans les grands modèles de langage. Il évalue la capacité à répondre en closed-book à des questions dont l’information de référence n’existe que dans une seule langue, à…

ECLeKTic est un benchmark de Google Research et Google DeepMind consacré au transfert de connaissances cross-lingue dans les grands modèles de langage. Il évalue la capacité à répondre en closed-book à des questions dont l’information de référence n’existe que dans une seule langue, à partir d’articles Wikipedia.

Le benchmark sert à observer si un modèle peut mobiliser une connaissance apprise dans une langue pour produire une réponse correcte dans une autre. Il cible donc moins la traduction que la circulation effective des connaissances entre langues.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle Research / Google DeepMind
Capacités mesuréesTransfert de connaissances cross-lingue : repondre en closed-book a des questions dont l'information n'existe que dans une seule langue
ModalitéTexte
Type de questionsQA closed-book multilingue (transfert cross-lingue)
Métrique d'évaluationExactitude / taux de transfert cross-lingue
AccèsPublic
Langues12 langues : anglais, allemand, francais, hebreu, hindi, indonesien, italien, japonais, coreen, chinois mandarin, portugais, espagnol
Taille du jeu~384 questions transferees sur 12 langues
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Gemma 3n E4B InstructedGoogle19,0 %26 juin 2025Auto-déclaré
2Gemma 3 27BGoogle16,7 %12 mars 2025Auto-déclaré
3Gemma 3 12BGoogle10,3 %12 mars 2025Auto-déclaré
4Gemma 3 4BGoogle4,6 %12 mars 2025Auto-déclaré
5Gemma 3n E2B InstructedGoogle2,5 %26 juin 2025Auto-déclaré
6Gemma 3n E2B Instructed LiteRT (Preview)Google2,5 %20 mai 2025Auto-déclaré
7Gemma 3n E4B Instructed LiteRT PreviewGoogle1,9 %20 mai 2025Auto-déclaré
8Gemma 3 1BGoogle1,4 %12 mars 2025Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 3,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ECLeKTic indique qu’un modèle parvient à transférer des connaissances factuelles entre langues sans accès à un document externe au moment de la réponse. Dans la base considérée, les résultats restent bas, avec un score médian de 4 % et un meilleur score à 19 % pour Gemma 3n E4B Instructed, ce qui suggère que la tâche n’est pas saturée et demeure discriminante pour les modèles évalués.

La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de manière indépendante. Le risque de contamination ne peut pas être écarté à partir des seules informations disponibles, même si le protocole s’appuie sur des questions issues d’articles Wikipedia présents dans une seule langue. La portée reste aussi circonscrite à un QA closed-book multilingue, sur environ 384 questions transférées et 12 langues. Enfin, les 8 modèles classés dans la base sont édités par Google, également co-développeur du benchmark, ce qui empêche d’en faire une source indépendante pour comparer les modèles Google à ceux d’autres éditeurs.


Sources des scores : llm-stats.