Hallucinations (Baseline)
Benchable : Hallucinations (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité d’un modèle à reconnaître l’incertitude face à des informations entièrement fictives. Il s’intéresse à l’humilité épistémique, c’est-à-dire à la résistance à produire une réponse…
Benchable : Hallucinations (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité d’un modèle à reconnaître l’incertitude face à des informations entièrement fictives. Il s’intéresse à l’humilité épistémique, c’est-à-dire à la résistance à produire une réponse plausible mais infondée lorsqu’un concept, un événement ou une entité n’existe pas.
Le test repose sur des questions à choix multiples en anglais, où la réponse attendue est systématiquement « Je ne sais pas ». Il sert ainsi de contrôle simple et ciblé pour mesurer la tendance d’un modèle à halluciner dans un cadre volontairement piégé.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Humilite epistemique / resistance aux hallucinations : reconnaitre l'incertitude face a des concepts, evenements ou entites entierement fictifs |
| Modalité | Texte |
| Type de questions | QCM (A/B/C/D) ou 'Je ne sais pas' est toujours la bonne reponse |
| Métrique d'évaluation | Exactitude (100% = aucune hallucination, le modele repond correctement 'Je ne sais pas') |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 50 questions |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | AionLabs: Aion-2.0 | aion-labs | 100,0 % | 23 février 2026 | ✅ Mesuré |
| 2 | Arcee AI: Coder Large | arcee-ai | 100,0 % | 5 mai 2025 | ✅ Mesuré |
| 3 | Arcee AI: Virtuoso Large | arcee-ai | 100,0 % | 5 mai 2025 | ✅ Mesuré |
| 4 | Claude Haiku 4.5 | Anthropic | 100,0 % | 15 octobre 2025 | ✅ Mesuré |
| 5 | Claude Opus 4 | Anthropic | 100,0 % | 22 mai 2025 | ✅ Mesuré |
| 6 | Claude Opus 4.1 | Anthropic | 100,0 % | 5 août 2025 | ✅ Mesuré |
| 7 | Claude Sonnet 4 | Anthropic | 100,0 % | 22 mai 2025 | ✅ Mesuré |
| 8 | Claude Sonnet 4.5 | Anthropic | 100,0 % | 29 septembre 2025 | ✅ Mesuré |
| 9 | Deep Cogito: Cogito v2.1 671B | deepcogito | 100,0 % | 13 novembre 2025 | ✅ Mesuré |
| 10 | DeepSeek V3.1 Terminus | DeepSeek | 100,0 % | 22 septembre 2025 | ✅ Mesuré |
| 11 | GLM-5.1 | Zhipu AI | 100,0 % | 7 avril 2026 | ✅ Mesuré |
| 12 | GLM-5.2 | Zhipu AI | 100,0 % | 16 juin 2026 | ✅ Mesuré |
| 13 | GLM-5V-Turbo | Zhipu AI | 100,0 % | 2 avril 2026 | ✅ Mesuré |
| 14 | GPT-4 Turbo | OpenAI | 100,0 % | 9 avril 2024 | ✅ Mesuré |
| 15 | GPT-4o | OpenAI | 100,0 % | 27 mars 2025 | ✅ Mesuré |
| 16 | GPT-5 Codex | OpenAI | 100,0 % | 15 septembre 2025 | ✅ Mesuré |
| 17 | GPT-5 mini | OpenAI | 100,0 % | 7 août 2025 | ✅ Mesuré |
| 18 | GPT-5 nano | OpenAI | 100,0 % | 7 août 2025 | ✅ Mesuré |
| 19 | GPT-5.1 | OpenAI | 100,0 % | 13 novembre 2025 | ✅ Mesuré |
| 20 | GPT-5.1 Codex | OpenAI | 100,0 % | 19 novembre 2025 | ✅ Mesuré |
Classement établi sur 230 modèles évalués, dont 138 de grands éditeurs. Score médian de l'ensemble : 96,0 %.
Notre analyse
Un score élevé sur Benchable : Hallucinations (Baseline) indique qu’un modèle sait s’abstenir lorsqu’il est confronté à des informations inventées, plutôt que de sélectionner une option incorrecte. L’exactitude se lit ici directement comme un taux de non-hallucination, avec 100 % correspondant à des réponses systématiquement alignées sur « Je ne sais pas ». Les scores disposent d’une fiabilité renforcée par le fait qu’ils sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre toutefois une forte saturation, avec une médiane de 96 % et un meilleur score à 100 % pour AionLabs: Aion-2.0 (aion-labs), ce qui réduit la capacité du test à départager finement les modèles les plus performants. Sa portée reste également étroite : 50 questions, uniquement en anglais, dans un format QCM très spécifique. Une éventuelle contamination ne peut pas être exclue à partir des seules informations disponibles.
Sources des scores : benchable.