Autres benchmarks

Hallucinations (Baseline)

Benchable : Hallucinations (Baseline) est un benchmark public créé par Benchable pour évaluer la capacité d’un modèle à reconnaître l’incertitude face à des informations entièrement fictives. Il s’intéresse à l’humilité épistémique, c’est-à-dire à la résistance à produire une réponse…

Le test repose sur des questions à choix multiples en anglais, où la réponse attendue est systématiquement « Je ne sais pas ». Il sert ainsi de contrôle simple et ciblé pour mesurer la tendance d’un modèle à halluciner dans un cadre volontairement piégé.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Humilite epistemique / resistance aux hallucinations : reconnaitre l'incertitude face a des concepts, evenements ou entites entierement fictifs
Modalité	Texte
Type de questions	QCM (A/B/C/D) ou 'Je ne sais pas' est toujours la bonne reponse
Métrique d'évaluation	Exactitude (100% = aucune hallucination, le modele repond correctement 'Je ne sais pas')
Accès	Public
Langues	anglais
Taille du jeu	50 questions
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	AionLabs: Aion-2.0	aion-labs	100,0 %	23 février 2026	✅ Mesuré
2	Arcee AI: Coder Large	arcee-ai	100,0 %	5 mai 2025	✅ Mesuré
3	Arcee AI: Virtuoso Large	arcee-ai	100,0 %	5 mai 2025	✅ Mesuré
4	Claude Haiku 4.5	Anthropic	100,0 %	15 octobre 2025	✅ Mesuré
5	Claude Opus 4	Anthropic	100,0 %	22 mai 2025	✅ Mesuré
6	Claude Opus 4.1	Anthropic	100,0 %	5 août 2025	✅ Mesuré
7	Claude Sonnet 4	Anthropic	100,0 %	22 mai 2025	✅ Mesuré
8	Claude Sonnet 4.5	Anthropic	100,0 %	29 septembre 2025	✅ Mesuré
9	Deep Cogito: Cogito v2.1 671B	deepcogito	100,0 %	13 novembre 2025	✅ Mesuré
10	DeepSeek V3.1 Terminus	DeepSeek	100,0 %	22 septembre 2025	✅ Mesuré
11	GLM-5.1	Zhipu AI	100,0 %	7 avril 2026	✅ Mesuré
12	GLM-5.2	Zhipu AI	100,0 %	16 juin 2026	✅ Mesuré
13	GLM-5V-Turbo	Zhipu AI	100,0 %	2 avril 2026	✅ Mesuré
14	GPT-4 Turbo	OpenAI	100,0 %	9 avril 2024	✅ Mesuré
15	GPT-4o	OpenAI	100,0 %	27 mars 2025	✅ Mesuré
16	GPT-5 Codex	OpenAI	100,0 %	15 septembre 2025	✅ Mesuré
17	GPT-5 mini	OpenAI	100,0 %	7 août 2025	✅ Mesuré
18	GPT-5 nano	OpenAI	100,0 %	7 août 2025	✅ Mesuré
19	GPT-5.1	OpenAI	100,0 %	13 novembre 2025	✅ Mesuré
20	GPT-5.1 Codex	OpenAI	100,0 %	19 novembre 2025	✅ Mesuré

Classement établi sur 230 modèles évalués, dont 138 de grands éditeurs. Score médian de l'ensemble : 96,0 %.

Notre analyse

Un score élevé sur Benchable : Hallucinations (Baseline) indique qu’un modèle sait s’abstenir lorsqu’il est confronté à des informations inventées, plutôt que de sélectionner une option incorrecte. L’exactitude se lit ici directement comme un taux de non-hallucination, avec 100 % correspondant à des réponses systématiquement alignées sur « Je ne sais pas ». Les scores disposent d’une fiabilité renforcée par le fait qu’ils sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre toutefois une forte saturation, avec une médiane de 96 % et un meilleur score à 100 % pour AionLabs: Aion-2.0 (aion-labs), ce qui réduit la capacité du test à départager finement les modèles les plus performants. Sa portée reste également étroite : 50 questions, uniquement en anglais, dans un format QCM très spécifique. Une éventuelle contamination ne peut pas être exclue à partir des seules informations disponibles.

Sources des scores : benchable.

Hallucinations (Baseline)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23