ECLeKTic
ECLeKTic est un benchmark de Google Research et Google DeepMind consacré au transfert de connaissances cross-lingue dans les grands modèles de langage. Il évalue la capacité à répondre en closed-book à des questions dont l’information de référence n’existe que dans une seule langue, à…
ECLeKTic est un benchmark de Google Research et Google DeepMind consacré au transfert de connaissances cross-lingue dans les grands modèles de langage. Il évalue la capacité à répondre en closed-book à des questions dont l’information de référence n’existe que dans une seule langue, à partir d’articles Wikipedia.
Le benchmark sert à observer si un modèle peut mobiliser une connaissance apprise dans une langue pour produire une réponse correcte dans une autre. Il cible donc moins la traduction que la circulation effective des connaissances entre langues.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google Research / Google DeepMind |
| Capacités mesurées | Transfert de connaissances cross-lingue : repondre en closed-book a des questions dont l'information n'existe que dans une seule langue |
| Modalité | Texte |
| Type de questions | QA closed-book multilingue (transfert cross-lingue) |
| Métrique d'évaluation | Exactitude / taux de transfert cross-lingue |
| Accès | Public |
| Langues | 12 langues : anglais, allemand, francais, hebreu, hindi, indonesien, italien, japonais, coreen, chinois mandarin, portugais, espagnol |
| Taille du jeu | ~384 questions transferees sur 12 langues |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemma 3n E4B Instructed | 19,0 % | 26 juin 2025 | Auto-déclaré | |
| 2 | Gemma 3 27B | 16,7 % | 12 mars 2025 | Auto-déclaré | |
| 3 | Gemma 3 12B | 10,3 % | 12 mars 2025 | Auto-déclaré | |
| 4 | Gemma 3 4B | 4,6 % | 12 mars 2025 | Auto-déclaré | |
| 5 | Gemma 3n E2B Instructed | 2,5 % | 26 juin 2025 | Auto-déclaré | |
| 6 | Gemma 3n E2B Instructed LiteRT (Preview) | 2,5 % | 20 mai 2025 | Auto-déclaré | |
| 7 | Gemma 3n E4B Instructed LiteRT Preview | 1,9 % | 20 mai 2025 | Auto-déclaré | |
| 8 | Gemma 3 1B | 1,4 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 3,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ECLeKTic indique qu’un modèle parvient à transférer des connaissances factuelles entre langues sans accès à un document externe au moment de la réponse. Dans la base considérée, les résultats restent bas, avec un score médian de 4 % et un meilleur score à 19 % pour Gemma 3n E4B Instructed, ce qui suggère que la tâche n’est pas saturée et demeure discriminante pour les modèles évalués.
La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de manière indépendante. Le risque de contamination ne peut pas être écarté à partir des seules informations disponibles, même si le protocole s’appuie sur des questions issues d’articles Wikipedia présents dans une seule langue. La portée reste aussi circonscrite à un QA closed-book multilingue, sur environ 384 questions transférées et 12 langues. Enfin, les 8 modèles classés dans la base sont édités par Google, également co-développeur du benchmark, ce qui empêche d’en faire une source indépendante pour comparer les modèles Google à ceux d’autres éditeurs.
Sources des scores : llm-stats.