Ethics (Baseline)

Benchable : Ethics (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement éthique des modèles d’IA. Il se concentre sur des situations relevant notamment de l’éthique professionnelle, de l’éthique de la recherche, de l’éthique des technologies et du…

Benchable : Ethics (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement éthique des modèles d’IA. Il se concentre sur des situations relevant notamment de l’éthique professionnelle, de l’éthique de la recherche, de l’éthique des technologies et du raisonnement moral.

Le test repose sur des QCM en anglais, avec une seule réponse considérée comme clairement éthique selon des principes établis. Son rôle est de fournir un repère simple et standardisé pour comparer la capacité des modèles à identifier l’option moralement appropriée dans des scénarios encadrés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesRaisonnement ethique : ethique professionnelle, ethique de la recherche, ethique des technologies, raisonnement moral
ModalitéTexte
Type de questionsQCM (4 options A/B/C/D)
Métrique d'évaluationChoix ethique correct (Exact Match, JSON Path $.answer)
AccèsPublic
Languesanglais
Taille du jeu100 questions
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1AionLabs: Aion-2.0aion-labs100,0 %23 février 2026✅ Mesuré
2Arcee AI: Trinity Large Thinkingarcee-ai100,0 %1 avril 2026✅ Mesuré
3Arcee AI: Virtuoso Largearcee-ai100,0 %5 mai 2025✅ Mesuré
4Baidu: ERNIE 4.5 VL 424B A47B Baidu100,0 %30 juin 2025✅ Mesuré
5ByteDance Seed: Seed 1.6 FlashByteDance-Seed100,0 %23 décembre 2025✅ Mesuré
6Claude Haiku 4.5Anthropic100,0 %15 octobre 2025✅ Mesuré
7Claude Opus 4Anthropic100,0 %22 mai 2025✅ Mesuré
8Claude Opus 4.1Anthropic100,0 %5 août 2025✅ Mesuré
9Claude Opus 4.5Anthropic100,0 %24 novembre 2025✅ Mesuré
10Claude Opus 4.6Anthropic100,0 %7 avril 2026✅ Mesuré
11Claude Opus 4.7Anthropic100,0 %12 mai 2026✅ Mesuré
12Claude Opus 4.8Anthropic100,0 %28 mai 2026✅ Mesuré
13Claude Sonnet 4Anthropic100,0 %22 mai 2025✅ Mesuré
14Claude Sonnet 4.5Anthropic100,0 %29 septembre 2025✅ Mesuré
15Claude Sonnet 4.6Anthropic100,0 %17 février 2026✅ Mesuré
16Deep Cogito: Cogito v2.1 671Bdeepcogito100,0 %13 novembre 2025✅ Mesuré
17DeepSeek V3.1 TerminusDeepSeek100,0 %22 septembre 2025✅ Mesuré
18DeepSeek V4 FlashDeepSeek100,0 %24 avril 2026✅ Mesuré
19DeepSeek-V3.2-ExpDeepSeek100,0 %29 septembre 2025✅ Mesuré
20GLM-4.6Zhipu AI100,0 %30 septembre 2025✅ Mesuré

Classement établi sur 249 modèles évalués, dont 147 de grands éditeurs. Score médian de l'ensemble : 99,0 %.

Notre analyse

Un score élevé sur Benchable : Ethics (Baseline) indique qu’un modèle sélectionne très souvent la réponse attendue dans des dilemmes éthiques formulés sous forme de QCM. La métrique repose sur une correspondance exacte de la lettre de réponse, ce qui rend l’évaluation claire et reproductible, mais limite aussi l’analyse à un choix final plutôt qu’à la qualité du raisonnement. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés.

Le score médian de 99 % et la présence d’un meilleur résultat à 100 %, obtenu par AionLabs: Aion-2.0 (aion-labs), signalent toutefois une forte saturation du benchmark. Le classement distingue peu les modèles les plus performants et peut refléter la familiarité avec des principes éthiques standardisés, voire un risque de contamination. La portée reste limitée à 100 questions en anglais et à des réponses fermées, sans évaluer la gestion de cas ambigus, culturels ou contextuels.


Sources des scores : benchable.