Ethics (Baseline)
Benchable : Ethics (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement éthique des modèles d’IA. Il se concentre sur des situations relevant notamment de l’éthique professionnelle, de l’éthique de la recherche, de l’éthique des technologies et du…
Benchable : Ethics (Baseline) est un benchmark public créé par Benchable pour évaluer le raisonnement éthique des modèles d’IA. Il se concentre sur des situations relevant notamment de l’éthique professionnelle, de l’éthique de la recherche, de l’éthique des technologies et du raisonnement moral.
Le test repose sur des QCM en anglais, avec une seule réponse considérée comme clairement éthique selon des principes établis. Son rôle est de fournir un repère simple et standardisé pour comparer la capacité des modèles à identifier l’option moralement appropriée dans des scénarios encadrés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Raisonnement ethique : ethique professionnelle, ethique de la recherche, ethique des technologies, raisonnement moral |
| Modalité | Texte |
| Type de questions | QCM (4 options A/B/C/D) |
| Métrique d'évaluation | Choix ethique correct (Exact Match, JSON Path $.answer) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 100 questions |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | AionLabs: Aion-2.0 | aion-labs | 100,0 % | 23 février 2026 | ✅ Mesuré |
| 2 | Arcee AI: Trinity Large Thinking | arcee-ai | 100,0 % | 1 avril 2026 | ✅ Mesuré |
| 3 | Arcee AI: Virtuoso Large | arcee-ai | 100,0 % | 5 mai 2025 | ✅ Mesuré |
| 4 | Baidu: ERNIE 4.5 VL 424B A47B | Baidu | 100,0 % | 30 juin 2025 | ✅ Mesuré |
| 5 | ByteDance Seed: Seed 1.6 Flash | ByteDance-Seed | 100,0 % | 23 décembre 2025 | ✅ Mesuré |
| 6 | Claude Haiku 4.5 | Anthropic | 100,0 % | 15 octobre 2025 | ✅ Mesuré |
| 7 | Claude Opus 4 | Anthropic | 100,0 % | 22 mai 2025 | ✅ Mesuré |
| 8 | Claude Opus 4.1 | Anthropic | 100,0 % | 5 août 2025 | ✅ Mesuré |
| 9 | Claude Opus 4.5 | Anthropic | 100,0 % | 24 novembre 2025 | ✅ Mesuré |
| 10 | Claude Opus 4.6 | Anthropic | 100,0 % | 7 avril 2026 | ✅ Mesuré |
| 11 | Claude Opus 4.7 | Anthropic | 100,0 % | 12 mai 2026 | ✅ Mesuré |
| 12 | Claude Opus 4.8 | Anthropic | 100,0 % | 28 mai 2026 | ✅ Mesuré |
| 13 | Claude Sonnet 4 | Anthropic | 100,0 % | 22 mai 2025 | ✅ Mesuré |
| 14 | Claude Sonnet 4.5 | Anthropic | 100,0 % | 29 septembre 2025 | ✅ Mesuré |
| 15 | Claude Sonnet 4.6 | Anthropic | 100,0 % | 17 février 2026 | ✅ Mesuré |
| 16 | Deep Cogito: Cogito v2.1 671B | deepcogito | 100,0 % | 13 novembre 2025 | ✅ Mesuré |
| 17 | DeepSeek V3.1 Terminus | DeepSeek | 100,0 % | 22 septembre 2025 | ✅ Mesuré |
| 18 | DeepSeek V4 Flash | DeepSeek | 100,0 % | 24 avril 2026 | ✅ Mesuré |
| 19 | DeepSeek-V3.2-Exp | DeepSeek | 100,0 % | 29 septembre 2025 | ✅ Mesuré |
| 20 | GLM-4.6 | Zhipu AI | 100,0 % | 30 septembre 2025 | ✅ Mesuré |
Classement établi sur 249 modèles évalués, dont 147 de grands éditeurs. Score médian de l'ensemble : 99,0 %.
Notre analyse
Un score élevé sur Benchable : Ethics (Baseline) indique qu’un modèle sélectionne très souvent la réponse attendue dans des dilemmes éthiques formulés sous forme de QCM. La métrique repose sur une correspondance exacte de la lettre de réponse, ce qui rend l’évaluation claire et reproductible, mais limite aussi l’analyse à un choix final plutôt qu’à la qualité du raisonnement. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés.
Le score médian de 99 % et la présence d’un meilleur résultat à 100 %, obtenu par AionLabs: Aion-2.0 (aion-labs), signalent toutefois une forte saturation du benchmark. Le classement distingue peu les modèles les plus performants et peut refléter la familiarité avec des principes éthiques standardisés, voire un risque de contamination. La portée reste limitée à 100 questions en anglais et à des réponses fermées, sans évaluer la gestion de cas ambigus, culturels ou contextuels.
Sources des scores : benchable.