Langage & rédaction

ECLeKTic

ECLeKTic est un benchmark de Google Research et Google DeepMind consacré au transfert de connaissances cross-lingue dans les grands modèles de langage. Il évalue la capacité à répondre en closed-book à des questions dont l’information de référence n’existe que dans une seule langue, à…

Le benchmark sert à observer si un modèle peut mobiliser une connaissance apprise dans une langue pour produire une réponse correcte dans une autre. Il cible donc moins la traduction que la circulation effective des connaissances entre langues.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google Research / Google DeepMind
Capacités mesurées	Transfert de connaissances cross-lingue : repondre en closed-book a des questions dont l'information n'existe que dans une seule langue
Modalité	Texte
Type de questions	QA closed-book multilingue (transfert cross-lingue)
Métrique d'évaluation	Exactitude / taux de transfert cross-lingue
Accès	Public
Langues	12 langues : anglais, allemand, francais, hebreu, hindi, indonesien, italien, japonais, coreen, chinois mandarin, portugais, espagnol
Taille du jeu	~384 questions transferees sur 12 langues
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemma 3n E4B Instructed	Google	19,0 %	26 juin 2025	Auto-déclaré
2	Gemma 3 27B	Google	16,7 %	12 mars 2025	Auto-déclaré
3	Gemma 3 12B	Google	10,3 %	12 mars 2025	Auto-déclaré
4	Gemma 3 4B	Google	4,6 %	12 mars 2025	Auto-déclaré
5	Gemma 3n E2B Instructed	Google	2,5 %	26 juin 2025	Auto-déclaré
6	Gemma 3n E2B Instructed LiteRT (Preview)	Google	2,5 %	20 mai 2025	Auto-déclaré
7	Gemma 3n E4B Instructed LiteRT Preview	Google	1,9 %	20 mai 2025	Auto-déclaré
8	Gemma 3 1B	Google	1,4 %	12 mars 2025	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 3,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ECLeKTic indique qu’un modèle parvient à transférer des connaissances factuelles entre langues sans accès à un document externe au moment de la réponse. Dans la base considérée, les résultats restent bas, avec un score médian de 4 % et un meilleur score à 19 % pour Gemma 3n E4B Instructed, ce qui suggère que la tâche n’est pas saturée et demeure discriminante pour les modèles évalués.

La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de manière indépendante. Le risque de contamination ne peut pas être écarté à partir des seules informations disponibles, même si le protocole s’appuie sur des questions issues d’articles Wikipedia présents dans une seule langue. La portée reste aussi circonscrite à un QA closed-book multilingue, sur environ 384 questions transférées et 12 langues. Enfin, les 8 modèles classés dans la base sont édités par Google, également co-développeur du benchmark, ce qui empêche d’en faire une source indépendante pour comparer les modèles Google à ceux d’autres éditeurs.

Sources des scores : llm-stats.

ECLeKTic

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench