Autres benchmarks

Ethics (Baseline)

Benchable : Ethics (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement éthique des modèles d’IA. Il se concentre sur des situations relevant notamment de l’éthique professionnelle, de l’éthique de la recherche, de l’éthique des technologies et du…

Le test repose sur des QCM en anglais, avec une seule réponse considérée comme clairement éthique selon des principes établis. Son rôle est de fournir un repère simple et standardisé pour comparer la capacité des modèles à identifier l’option moralement appropriée dans des scénarios encadrés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Raisonnement ethique : ethique professionnelle, ethique de la recherche, ethique des technologies, raisonnement moral
Modalité	Texte
Type de questions	QCM (4 options A/B/C/D)
Métrique d'évaluation	Choix ethique correct (Exact Match, JSON Path $.answer)
Accès	Public
Langues	anglais
Taille du jeu	100 questions
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	AionLabs: Aion-2.0	aion-labs	100,0 %	23 février 2026	✅ Mesuré
2	Arcee AI: Trinity Large Thinking	arcee-ai	100,0 %	1 avril 2026	✅ Mesuré
3	Arcee AI: Virtuoso Large	arcee-ai	100,0 %	5 mai 2025	✅ Mesuré
4	Baidu: ERNIE 4.5 VL 424B A47B	Baidu	100,0 %	30 juin 2025	✅ Mesuré
5	ByteDance Seed: Seed 1.6 Flash	ByteDance-Seed	100,0 %	23 décembre 2025	✅ Mesuré
6	Claude Haiku 4.5	Anthropic	100,0 %	15 octobre 2025	✅ Mesuré
7	Claude Opus 4	Anthropic	100,0 %	22 mai 2025	✅ Mesuré
8	Claude Opus 4.1	Anthropic	100,0 %	5 août 2025	✅ Mesuré
9	Claude Opus 4.5	Anthropic	100,0 %	24 novembre 2025	✅ Mesuré
10	Claude Opus 4.6	Anthropic	100,0 %	7 avril 2026	✅ Mesuré
11	Claude Opus 4.7	Anthropic	100,0 %	12 mai 2026	✅ Mesuré
12	Claude Opus 4.8	Anthropic	100,0 %	28 mai 2026	✅ Mesuré
13	Claude Sonnet 4	Anthropic	100,0 %	22 mai 2025	✅ Mesuré
14	Claude Sonnet 4.5	Anthropic	100,0 %	29 septembre 2025	✅ Mesuré
15	Claude Sonnet 4.6	Anthropic	100,0 %	17 février 2026	✅ Mesuré
16	Deep Cogito: Cogito v2.1 671B	deepcogito	100,0 %	13 novembre 2025	✅ Mesuré
17	DeepSeek V3.1 Terminus	DeepSeek	100,0 %	22 septembre 2025	✅ Mesuré
18	DeepSeek V4 Flash	DeepSeek	100,0 %	24 avril 2026	✅ Mesuré
19	DeepSeek-V3.2-Exp	DeepSeek	100,0 %	29 septembre 2025	✅ Mesuré
20	GLM-4.6	Zhipu AI	100,0 %	30 septembre 2025	✅ Mesuré

Classement établi sur 249 modèles évalués, dont 147 de grands éditeurs. Score médian de l'ensemble : 99,0 %.

Notre analyse

Un score élevé sur Benchable : Ethics (Baseline) indique qu’un modèle sélectionne très souvent la réponse attendue dans des dilemmes éthiques formulés sous forme de QCM. La métrique repose sur une correspondance exacte de la lettre de réponse, ce qui rend l’évaluation claire et reproductible, mais limite aussi l’analyse à un choix final plutôt qu’à la qualité du raisonnement. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés.

Le score médian de 99 % et la présence d’un meilleur résultat à 100 %, obtenu par AionLabs: Aion-2.0 (aion-labs), signalent toutefois une forte saturation du benchmark. Le classement distingue peu les modèles les plus performants et peut refléter la familiarité avec des principes éthiques standardisés, voire un risque de contamination. La portée reste limitée à 100 questions en anglais et à des réponses fermées, sans évaluer la gestion de cas ambigus, culturels ou contextuels.

Sources des scores : benchable.

Ethics (Baseline)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench