Hallucinations (Baseline)

Benchable : Hallucinations (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité d’un modèle à reconnaître l’incertitude face à des informations entièrement fictives. Il s’intéresse à l’humilité épistémique, c’est-à-dire à la résistance à produire une réponse…

Benchable : Hallucinations (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité d’un modèle à reconnaître l’incertitude face à des informations entièrement fictives. Il s’intéresse à l’humilité épistémique, c’est-à-dire à la résistance à produire une réponse plausible mais infondée lorsqu’un concept, un événement ou une entité n’existe pas.

Le test repose sur des questions à choix multiples en anglais, où la réponse attendue est systématiquement « Je ne sais pas ». Il sert ainsi de contrôle simple et ciblé pour mesurer la tendance d’un modèle à halluciner dans un cadre volontairement piégé.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesHumilite epistemique / resistance aux hallucinations : reconnaitre l'incertitude face a des concepts, evenements ou entites entierement fictifs
ModalitéTexte
Type de questionsQCM (A/B/C/D) ou 'Je ne sais pas' est toujours la bonne reponse
Métrique d'évaluationExactitude (100% = aucune hallucination, le modele repond correctement 'Je ne sais pas')
AccèsPublic
Languesanglais
Taille du jeu50 questions
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1AionLabs: Aion-2.0aion-labs100,0 %23 février 2026✅ Mesuré
2Arcee AI: Coder Largearcee-ai100,0 %5 mai 2025✅ Mesuré
3Arcee AI: Virtuoso Largearcee-ai100,0 %5 mai 2025✅ Mesuré
4Claude Haiku 4.5Anthropic100,0 %15 octobre 2025✅ Mesuré
5Claude Opus 4Anthropic100,0 %22 mai 2025✅ Mesuré
6Claude Opus 4.1Anthropic100,0 %5 août 2025✅ Mesuré
7Claude Sonnet 4Anthropic100,0 %22 mai 2025✅ Mesuré
8Claude Sonnet 4.5Anthropic100,0 %29 septembre 2025✅ Mesuré
9Deep Cogito: Cogito v2.1 671Bdeepcogito100,0 %13 novembre 2025✅ Mesuré
10DeepSeek V3.1 TerminusDeepSeek100,0 %22 septembre 2025✅ Mesuré
11GLM-5.1Zhipu AI100,0 %7 avril 2026✅ Mesuré
12GLM-5.2Zhipu AI100,0 %16 juin 2026✅ Mesuré
13GLM-5V-TurboZhipu AI100,0 %2 avril 2026✅ Mesuré
14GPT-4 TurboOpenAI100,0 %9 avril 2024✅ Mesuré
15GPT-4oOpenAI100,0 %27 mars 2025✅ Mesuré
16GPT-5 CodexOpenAI100,0 %15 septembre 2025✅ Mesuré
17GPT-5 miniOpenAI100,0 %7 août 2025✅ Mesuré
18GPT-5 nanoOpenAI100,0 %7 août 2025✅ Mesuré
19GPT-5.1OpenAI100,0 %13 novembre 2025✅ Mesuré
20GPT-5.1 CodexOpenAI100,0 %19 novembre 2025✅ Mesuré

Classement établi sur 230 modèles évalués, dont 138 de grands éditeurs. Score médian de l'ensemble : 96,0 %.

Notre analyse

Un score élevé sur Benchable : Hallucinations (Baseline) indique qu’un modèle sait s’abstenir lorsqu’il est confronté à des informations inventées, plutôt que de sélectionner une option incorrecte. L’exactitude se lit ici directement comme un taux de non-hallucination, avec 100 % correspondant à des réponses systématiquement alignées sur « Je ne sais pas ». Les scores disposent d’une fiabilité renforcée par le fait qu’ils sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre toutefois une forte saturation, avec une médiane de 96 % et un meilleur score à 100 % pour AionLabs: Aion-2.0 (aion-labs), ce qui réduit la capacité du test à départager finement les modèles les plus performants. Sa portée reste également étroite : 50 questions, uniquement en anglais, dans un format QCM très spécifique. Une éventuelle contamination ne peut pas être exclue à partir des seules informations disponibles.


Sources des scores : benchable.