Mathématiques

AlignBench

AlignBench est un benchmark public conçu par THUDM, Tsinghua University et al. pour évaluer l’alignement des grands modèles de langage en chinois. Il se concentre sur des requêtes ouvertes et des instructions ancrées dans des scénarios réels, avec des réponses de référence vérifiées…

Le benchmark mesure plusieurs dimensions de performance, dont la compréhension, la génération, le raisonnement, les mathématiques, le jeu de rôle, l’écriture et les connaissances professionnelles. Son rôle est d’apprécier la capacité des modèles à produire des réponses utiles, cohérentes et adaptées au contexte chinois.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	THUDM, Tsinghua University et al.
Capacités mesurées	créativité, généraliste, langage, mathématiques, raisonnement, jeu de rôle, rédaction
Modalité	Texte
Type de questions	questions ouvertes et instructions en chinois, avec réponses de référence et évaluation par LLM-as-a-Judge
Métrique d'évaluation	score moyen attribué par LLM-as-a-Judge multi-dimensionnel calibré
Accès	Public
Langues	chinois
Taille du jeu	683 requêtes
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen2.5 72B Instruct	Qwen	81,6 %	19 septembre 2024	Auto-déclaré
2	DeepSeek-V2.5	DeepSeek	80,4 %	8 mai 2024	Auto-déclaré
3	Qwen2.5 7B Instruct	Qwen	73,3 %	19 septembre 2024	Auto-déclaré
4	Qwen2 7B Instruct	Qwen	72,1 %	23 juillet 2024	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 76,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AlignBench indique une meilleure capacité à suivre des instructions en chinois et à produire des réponses jugées solides sur plusieurs dimensions, de la maîtrise linguistique aux tâches de raisonnement et de connaissance spécialisée. L’évaluation repose sur un LLM-as-a-Judge multi-dimensionnel calibré par règles, avec Chain-of-Thought, ce qui apporte une grille plus structurée qu’un simple jugement global, mais ne remplace pas une évaluation humaine exhaustive. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe entre modèles. La portée reste centrée sur le chinois et sur 683 requêtes, avec les limites habituelles des benchmarks publics : risque de contamination, couverture partielle des usages réels et possible saturation si les modèles convergent vers les attentes du juge. Le classement montre un ensemble relativement performant, avec une médiane à 77 %, tandis que Qwen2.5 72B Instruct domine les modèles suivis avec 82 %.

Sources des scores : llm-stats.

AlignBench

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23