Include

Include est un benchmark d’évaluation multilingue conçu par Angelika Romanou et al., à l’EPFL et chez Cohere For AI. Il s’appuie sur des examens locaux pour mesurer la capacité des modèles à comprendre des questions ancrées dans des connaissances régionales et culturelles.

Include est un benchmark d’évaluation multilingue conçu par Angelika Romanou et al., à l’EPFL et chez Cohere For AI. Il s’appuie sur des examens locaux pour mesurer la capacité des modèles à comprendre des questions ancrées dans des connaissances régionales et culturelles.

Le benchmark couvre des QCM en 44 langues, avec 15 écritures et des contextes issus de 52 pays. Il sert à évaluer si un modèle généralise au-delà des ressources dominantes, en particulier dans des environnements linguistiques et culturels moins représentés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAngelika Romanou et al. (EPFL & Cohere For AI)
Capacités mesuréesCompréhension multilingue ancrée dans des connaissances régionales et culturelles, à partir d'examens locaux.
ModalitéTexte
Type de questionsQCM (4 options)
Métrique d'évaluationaccuracy
AccèsPublic
LicenceApache-2.0
Languesmultilingue : 44 langues (15 écritures, 52 pays)
Taille du jeu197 243 questions (1 926 examens) ; sous-ensemble public d'évaluation : 22 637 QCM
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.8Anthropic87,6 %28 mai 2026Auto-déclaré
2Qwen3.7 MaxQwen86,2 %19 mai 2026Auto-déclaré
3Qwen3.5-397B-A17BQwen85,6 %16 février 2026Auto-déclaré
4Qwen3.6 PlusQwen85,1 %31 mars 2026Auto-déclaré
5Qwen3.7-PlusQwen83,0 %31 mai 2026Auto-déclaré
6Qwen3.5-122B-A10BQwen82,8 %24 février 2026Auto-déclaré
7Qwen3.5-27BQwen81,6 %24 février 2026Auto-déclaré
8Qwen3-235B-A22B-Thinking-2507Qwen81,0 %25 juillet 2025Auto-déclaré
9Qwen3 VL 235B A22B InstructQwen80,0 %22 septembre 2025Auto-déclaré
10Qwen3 VL 235B A22B ThinkingQwen80,0 %22 septembre 2025Auto-déclaré
11Qwen3.5-35B-A3BQwen79,7 %24 février 2026Auto-déclaré
12Qwen3-235B-A22B-Instruct-2507Qwen79,5 %22 juillet 2025Auto-déclaré
13Qwen3-Next-80B-A3B-InstructQwen78,9 %10 septembre 2025Auto-déclaré
14Qwen3-Next-80B-A3B-ThinkingQwen78,9 %10 septembre 2025Auto-déclaré
15Qwen3 VL 32B ThinkingQwen76,3 %22 septembre 2025Auto-déclaré
16Qwen3.5-9BQwen75,6 %2 mars 2026Auto-déclaré
17Qwen3 VL 30B A3B ThinkingQwen74,5 %22 septembre 2025Auto-déclaré
18Qwen3 VL 32B InstructQwen74,0 %22 septembre 2025Auto-déclaré
19Qwen3 235B A22BQwen73,5 %25 juillet 2025Auto-déclaré
20Qwen3 VL 30B A3B InstructQwen71,6 %22 septembre 2025Auto-déclaré

Classement établi sur 31 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 75,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Include indique une bonne capacité à répondre à des QCM multilingues liés à des programmes et contextes locaux. La métrique utilisée, l’accuracy, rend la comparaison directe, mais elle ne décrit pas les raisons des erreurs ni la robustesse hors du format QCM. Dans la base, le classement regroupe 31 modèles, avec une médiane à 76% et un meilleur score de 88% pour Claude Opus 4.8 (Anthropic), ce qui suggère un écart encore visible entre les modèles tout en signalant une possible progression vers des performances élevées.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement reproduite dans un cadre indépendant. Les limites possibles incluent la saturation progressive du benchmark, la contamination par des examens disponibles publiquement, et une portée centrée sur des questions scolaires locales plutôt que sur toutes les formes de compréhension culturelle. Le classement renseigne donc surtout sur la performance relative dans ce cadre précis.


Sources des scores : llm-stats.