Include
Include est un benchmark d’évaluation multilingue conçu par Angelika Romanou et al., à l’EPFL et chez Cohere For AI. Il s’appuie sur des examens locaux pour mesurer la capacité des modèles à comprendre des questions ancrées dans des connaissances régionales et culturelles.
Include est un benchmark d’évaluation multilingue conçu par Angelika Romanou et al., à l’EPFL et chez Cohere For AI. Il s’appuie sur des examens locaux pour mesurer la capacité des modèles à comprendre des questions ancrées dans des connaissances régionales et culturelles.
Le benchmark couvre des QCM en 44 langues, avec 15 écritures et des contextes issus de 52 pays. Il sert à évaluer si un modèle généralise au-delà des ressources dominantes, en particulier dans des environnements linguistiques et culturels moins représentés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Angelika Romanou et al. (EPFL & Cohere For AI) |
| Capacités mesurées | Compréhension multilingue ancrée dans des connaissances régionales et culturelles, à partir d'examens locaux. |
| Modalité | Texte |
| Type de questions | QCM (4 options) |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | multilingue : 44 langues (15 écritures, 52 pays) |
| Taille du jeu | 197 243 questions (1 926 examens) ; sous-ensemble public d'évaluation : 22 637 QCM |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.8 | Anthropic | 87,6 % | 28 mai 2026 | Auto-déclaré |
| 2 | Qwen3.7 Max | Qwen | 86,2 % | 19 mai 2026 | Auto-déclaré |
| 3 | Qwen3.5-397B-A17B | Qwen | 85,6 % | 16 février 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 85,1 % | 31 mars 2026 | Auto-déclaré |
| 5 | Qwen3.7-Plus | Qwen | 83,0 % | 31 mai 2026 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 82,8 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 81,6 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 81,0 % | 25 juillet 2025 | Auto-déclaré |
| 9 | Qwen3 VL 235B A22B Instruct | Qwen | 80,0 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 235B A22B Thinking | Qwen | 80,0 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3.5-35B-A3B | Qwen | 79,7 % | 24 février 2026 | Auto-déclaré |
| 12 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 79,5 % | 22 juillet 2025 | Auto-déclaré |
| 13 | Qwen3-Next-80B-A3B-Instruct | Qwen | 78,9 % | 10 septembre 2025 | Auto-déclaré |
| 14 | Qwen3-Next-80B-A3B-Thinking | Qwen | 78,9 % | 10 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 32B Thinking | Qwen | 76,3 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3.5-9B | Qwen | 75,6 % | 2 mars 2026 | Auto-déclaré |
| 17 | Qwen3 VL 30B A3B Thinking | Qwen | 74,5 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 32B Instruct | Qwen | 74,0 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 235B A22B | Qwen | 73,5 % | 25 juillet 2025 | Auto-déclaré |
| 20 | Qwen3 VL 30B A3B Instruct | Qwen | 71,6 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 31 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 75,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Include indique une bonne capacité à répondre à des QCM multilingues liés à des programmes et contextes locaux. La métrique utilisée, l’accuracy, rend la comparaison directe, mais elle ne décrit pas les raisons des erreurs ni la robustesse hors du format QCM. Dans la base, le classement regroupe 31 modèles, avec une médiane à 76% et un meilleur score de 88% pour Claude Opus 4.8 (Anthropic), ce qui suggère un écart encore visible entre les modèles tout en signalant une possible progression vers des performances élevées.
La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement reproduite dans un cadre indépendant. Les limites possibles incluent la saturation progressive du benchmark, la contamination par des examens disponibles publiquement, et une portée centrée sur des questions scolaires locales plutôt que sur toutes les formes de compréhension culturelle. Le classement renseigne donc surtout sur la performance relative dans ce cadre précis.
Sources des scores : llm-stats.