Connaissances & sciences

Include

Include est un benchmark d’évaluation multilingue conçu par Angelika Romanou et al., à l’EPFL et chez Cohere For AI. Il s’appuie sur des examens locaux pour mesurer la capacité des modèles à comprendre des questions ancrées dans des connaissances régionales et culturelles.

Le benchmark couvre des QCM en 44 langues, avec 15 écritures et des contextes issus de 52 pays. Il sert à évaluer si un modèle généralise au-delà des ressources dominantes, en particulier dans des environnements linguistiques et culturels moins représentés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Angelika Romanou et al. (EPFL & Cohere For AI)
Capacités mesurées	Compréhension multilingue ancrée dans des connaissances régionales et culturelles, à partir d'examens locaux.
Modalité	Texte
Type de questions	QCM (4 options)
Métrique d'évaluation	accuracy
Accès	Public
Licence	Apache-2.0
Langues	multilingue : 44 langues (15 écritures, 52 pays)
Taille du jeu	197 243 questions (1 926 examens) ; sous-ensemble public d'évaluation : 22 637 QCM
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.8	Anthropic	87,6 %	28 mai 2026	Auto-déclaré
2	Qwen3.7 Max	Qwen	86,2 %	19 mai 2026	Auto-déclaré
3	Qwen3.5-397B-A17B	Qwen	85,6 %	16 février 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	85,1 %	31 mars 2026	Auto-déclaré
5	Qwen3.7-Plus	Qwen	83,0 %	31 mai 2026	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	82,8 %	24 février 2026	Auto-déclaré
7	Qwen3.5-27B	Qwen	81,6 %	24 février 2026	Auto-déclaré
8	Qwen3-235B-A22B-Thinking-2507	Qwen	81,0 %	25 juillet 2025	Auto-déclaré
9	Qwen3 VL 235B A22B Instruct	Qwen	80,0 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 235B A22B Thinking	Qwen	80,0 %	22 septembre 2025	Auto-déclaré
11	Qwen3.5-35B-A3B	Qwen	79,7 %	24 février 2026	Auto-déclaré
12	Qwen3-235B-A22B-Instruct-2507	Qwen	79,5 %	22 juillet 2025	Auto-déclaré
13	Qwen3-Next-80B-A3B-Instruct	Qwen	78,9 %	10 septembre 2025	Auto-déclaré
14	Qwen3-Next-80B-A3B-Thinking	Qwen	78,9 %	10 septembre 2025	Auto-déclaré
15	Qwen3 VL 32B Thinking	Qwen	76,3 %	22 septembre 2025	Auto-déclaré
16	Qwen3.5-9B	Qwen	75,6 %	2 mars 2026	Auto-déclaré
17	Qwen3 VL 30B A3B Thinking	Qwen	74,5 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 32B Instruct	Qwen	74,0 %	22 septembre 2025	Auto-déclaré
19	Qwen3 235B A22B	Qwen	73,5 %	25 juillet 2025	Auto-déclaré
20	Qwen3 VL 30B A3B Instruct	Qwen	71,6 %	22 septembre 2025	Auto-déclaré

Classement établi sur 31 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 75,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Include indique une bonne capacité à répondre à des QCM multilingues liés à des programmes et contextes locaux. La métrique utilisée, l’accuracy, rend la comparaison directe, mais elle ne décrit pas les raisons des erreurs ni la robustesse hors du format QCM. Dans la base, le classement regroupe 31 modèles, avec une médiane à 76% et un meilleur score de 88% pour Claude Opus 4.8 (Anthropic), ce qui suggère un écart encore visible entre les modèles tout en signalant une possible progression vers des performances élevées.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement reproduite dans un cadre indépendant. Les limites possibles incluent la saturation progressive du benchmark, la contamination par des examens disponibles publiquement, et une portée centrée sur des questions scolaires locales plutôt que sur toutes les formes de compréhension culturelle. Le classement renseigne donc surtout sur la performance relative dans ce cadre précis.

Sources des scores : llm-stats.

Include

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23