Autres benchmarks

Email Classification (Baseline)

Benchable : Email Classification (Baseline) est un benchmark public conçu par Benchable pour évaluer une tâche simple et fréquente : attribuer à un email une seule catégorie parmi six options prédéfinies, comme Spam, Business, Personnel, Newsletter, Service client ou Transactionnel.

Il sert de test de base pour mesurer la capacité d’un modèle à reconnaître l’intention générale d’un message et à produire exactement le nom de catégorie attendu. Sa validation repose sur une correspondance de libellé, insensible à la casse, ce qui en fait un repère direct pour la classification d’emails.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Classification d'emails en six categories (Spam, Business, Personnel, Newsletter, Service client, Transactionnel)
Modalité	Texte
Type de questions	Classification mono-label (email -> 1 des 6 categories)
Métrique d'évaluation	Taux de reussite par etape ; correspondance du nom de categorie correct (insensible a la casse)
Accès	Public
Langues	anglais
Taille du jeu	100 cas de test
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	AionLabs: Aion-1.0	aion-labs	100,0 %	4 février 2025	✅ Mesuré
2	DeepSeek V4 Pro	DeepSeek	100,0 %	24 avril 2026	✅ Mesuré
3	DeepSeek-R1	DeepSeek	100,0 %	28 mai 2025	✅ Mesuré
4	GLM-4.6	Zhipu AI	100,0 %	30 septembre 2025	✅ Mesuré
5	GLM-4.7-Flash	Zhipu AI	100,0 %	19 janvier 2026	✅ Mesuré
6	GPT-4 Turbo	OpenAI	100,0 %	9 avril 2024	✅ Mesuré
7	Gemini 2.5 Flash-Lite	Google	100,0 %	17 juin 2025	✅ Mesuré
8	Grok 4.3	xAI	100,0 %	6 mai 2026	✅ Mesuré
9	Kimi K2.6	Moonshot AI	100,0 %	20 avril 2026	✅ Mesuré
10	Llama 3.3 70B Instruct	Meta	100,0 %	6 décembre 2024	✅ Mesuré
11	MiniMax M1	MiniMax	100,0 %	17 juin 2025	✅ Mesuré
12	Nemotron 3 Ultra (550B A55B)	NVIDIA	100,0 %	4 juin 2026	✅ Mesuré
13	Qwen 3.5 Plus	Qwen	100,0 %	16 février 2026	✅ Mesuré
14	Qwen3 Max	Qwen	100,0 %	9 février 2026	✅ Mesuré
15	Qwen3.5-397B-A17B	Qwen	100,0 %	16 février 2026	✅ Mesuré
16	Reka Flash 3	rekaai	100,0 %	12 mars 2025	✅ Mesuré
17	Step-3.5-Flash	StepFun	100,0 %	2 février 2026	✅ Mesuré
18	StepFun: Step 3.7 Flash	StepFun	100,0 %	28 mai 2026	✅ Mesuré
19	hermes-3-llama-3.1-405b	nousresearch	100,0 %	—	✅ Mesuré
20	inclusionAI: Ling-2.6-1T	inclusionai	100,0 %	23 avril 2026	✅ Mesuré

Classement établi sur 255 modèles évalués, dont 151 de grands éditeurs. Score médian de l'ensemble : 98,0 %.

Notre analyse

Un score élevé sur Benchable : Email Classification (Baseline) indique qu’un modèle sait associer de manière fiable des emails en anglais à des catégories courantes, avec une sortie conforme au libellé attendu. La métrique, fondée sur le taux de réussite par étape, favorise les réponses précises et non ambiguës. Les scores de cette base sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de solidité qu’un classement uniquement auto-déclaré.

Le benchmark présente toutefois des limites importantes. Avec 100 cas de test et un score médian de 98 % parmi les modèles évalués, l’épreuve apparaît très saturée : elle distingue mal les modèles déjà performants sur des tâches de classification simples. La portée reste limitée à l’anglais et à six catégories fixes, sans indication sur des emails ambigus, multilingues ou hors distribution. Le meilleur résultat atteint 100 %, ce qui montre surtout que certains modèles maîtrisent parfaitement ce format, mais ne suffit pas à conclure à une compréhension générale de la messagerie ou du contexte métier.

Sources des scores : benchable.

Email Classification (Baseline)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23