AlignBench

AlignBench est un benchmark public conçu par THUDM, Tsinghua University et al. pour évaluer l’alignement des grands modèles de langage en chinois. Il se concentre sur des requêtes ouvertes et des instructions ancrées dans des scénarios réels, avec des réponses de référence vérifiées…

AlignBench est un benchmark public conçu par THUDM, Tsinghua University et al. pour évaluer l’alignement des grands modèles de langage en chinois. Il se concentre sur des requêtes ouvertes et des instructions ancrées dans des scénarios réels, avec des réponses de référence vérifiées humainement.

Le benchmark mesure plusieurs dimensions de performance, dont la compréhension, la génération, le raisonnement, les mathématiques, le jeu de rôle, l’écriture et les connaissances professionnelles. Son rôle est d’apprécier la capacité des modèles à produire des réponses utiles, cohérentes et adaptées au contexte chinois.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkTHUDM, Tsinghua University et al.
Capacités mesuréescréativité, généraliste, langage, mathématiques, raisonnement, jeu de rôle, rédaction
ModalitéTexte
Type de questionsquestions ouvertes et instructions en chinois, avec réponses de référence et évaluation par LLM-as-a-Judge
Métrique d'évaluationscore moyen attribué par LLM-as-a-Judge multi-dimensionnel calibré
AccèsPublic
Langueschinois
Taille du jeu683 requêtes
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Qwen2.5 72B InstructQwen81,6 %19 septembre 2024Auto-déclaré
2DeepSeek-V2.5DeepSeek80,4 %8 mai 2024Auto-déclaré
3Qwen2.5 7B InstructQwen73,3 %19 septembre 2024Auto-déclaré
4Qwen2 7B InstructQwen72,1 %23 juillet 2024Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 76,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AlignBench indique une meilleure capacité à suivre des instructions en chinois et à produire des réponses jugées solides sur plusieurs dimensions, de la maîtrise linguistique aux tâches de raisonnement et de connaissance spécialisée. L’évaluation repose sur un LLM-as-a-Judge multi-dimensionnel calibré par règles, avec Chain-of-Thought, ce qui apporte une grille plus structurée qu’un simple jugement global, mais ne remplace pas une évaluation humaine exhaustive. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe entre modèles. La portée reste centrée sur le chinois et sur 683 requêtes, avec les limites habituelles des benchmarks publics : risque de contamination, couverture partielle des usages réels et possible saturation si les modèles convergent vers les attentes du juge. Le classement montre un ensemble relativement performant, avec une médiane à 77 %, tandis que Qwen2.5 72B Instruct domine les modèles suivis avec 82 %.


Sources des scores : llm-stats.