AlignBench
AlignBench est un benchmark public conçu par THUDM, Tsinghua University et al. pour évaluer l’alignement des grands modèles de langage en chinois. Il se concentre sur des requêtes ouvertes et des instructions ancrées dans des scénarios réels, avec des réponses de référence vérifiées…
AlignBench est un benchmark public conçu par THUDM, Tsinghua University et al. pour évaluer l’alignement des grands modèles de langage en chinois. Il se concentre sur des requêtes ouvertes et des instructions ancrées dans des scénarios réels, avec des réponses de référence vérifiées humainement.
Le benchmark mesure plusieurs dimensions de performance, dont la compréhension, la génération, le raisonnement, les mathématiques, le jeu de rôle, l’écriture et les connaissances professionnelles. Son rôle est d’apprécier la capacité des modèles à produire des réponses utiles, cohérentes et adaptées au contexte chinois.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | THUDM, Tsinghua University et al. |
| Capacités mesurées | créativité, généraliste, langage, mathématiques, raisonnement, jeu de rôle, rédaction |
| Modalité | Texte |
| Type de questions | questions ouvertes et instructions en chinois, avec réponses de référence et évaluation par LLM-as-a-Judge |
| Métrique d'évaluation | score moyen attribué par LLM-as-a-Judge multi-dimensionnel calibré |
| Accès | Public |
| Langues | chinois |
| Taille du jeu | 683 requêtes |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen2.5 72B Instruct | Qwen | 81,6 % | 19 septembre 2024 | Auto-déclaré |
| 2 | DeepSeek-V2.5 | DeepSeek | 80,4 % | 8 mai 2024 | Auto-déclaré |
| 3 | Qwen2.5 7B Instruct | Qwen | 73,3 % | 19 septembre 2024 | Auto-déclaré |
| 4 | Qwen2 7B Instruct | Qwen | 72,1 % | 23 juillet 2024 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 76,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AlignBench indique une meilleure capacité à suivre des instructions en chinois et à produire des réponses jugées solides sur plusieurs dimensions, de la maîtrise linguistique aux tâches de raisonnement et de connaissance spécialisée. L’évaluation repose sur un LLM-as-a-Judge multi-dimensionnel calibré par règles, avec Chain-of-Thought, ce qui apporte une grille plus structurée qu’un simple jugement global, mais ne remplace pas une évaluation humaine exhaustive. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe entre modèles. La portée reste centrée sur le chinois et sur 683 requêtes, avec les limites habituelles des benchmarks publics : risque de contamination, couverture partielle des usages réels et possible saturation si les modèles convergent vers les attentes du juge. Le classement montre un ensemble relativement performant, avec une médiane à 77 %, tandis que Qwen2.5 72B Instruct domine les modèles suivis avec 82 %.
Sources des scores : llm-stats.