Email Classification (Baseline)

Benchable : Email Classification (Baseline) est un benchmark public conçu par Benchable pour évaluer une tâche simple et fréquente : attribuer à un email une seule catégorie parmi six options prédéfinies, comme Spam, Business, Personnel, Newsletter, Service client ou Transactionnel.

Benchable : Email Classification (Baseline) est un benchmark public conçu par Benchable pour évaluer une tâche simple et fréquente : attribuer à un email une seule catégorie parmi six options prédéfinies, comme Spam, Business, Personnel, Newsletter, Service client ou Transactionnel.

Il sert de test de base pour mesurer la capacité d’un modèle à reconnaître l’intention générale d’un message et à produire exactement le nom de catégorie attendu. Sa validation repose sur une correspondance de libellé, insensible à la casse, ce qui en fait un repère direct pour la classification d’emails.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesClassification d'emails en six categories (Spam, Business, Personnel, Newsletter, Service client, Transactionnel)
ModalitéTexte
Type de questionsClassification mono-label (email -> 1 des 6 categories)
Métrique d'évaluationTaux de reussite par etape ; correspondance du nom de categorie correct (insensible a la casse)
AccèsPublic
Languesanglais
Taille du jeu100 cas de test
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1AionLabs: Aion-1.0aion-labs100,0 %4 février 2025✅ Mesuré
2DeepSeek V4 ProDeepSeek100,0 %24 avril 2026✅ Mesuré
3DeepSeek-R1DeepSeek100,0 %28 mai 2025✅ Mesuré
4GLM-4.6Zhipu AI100,0 %30 septembre 2025✅ Mesuré
5GLM-4.7-FlashZhipu AI100,0 %19 janvier 2026✅ Mesuré
6GPT-4 TurboOpenAI100,0 %9 avril 2024✅ Mesuré
7Gemini 2.5 Flash-LiteGoogle100,0 %17 juin 2025✅ Mesuré
8Grok 4.3xAI100,0 %6 mai 2026✅ Mesuré
9Kimi K2.6Moonshot AI100,0 %20 avril 2026✅ Mesuré
10Llama 3.3 70B InstructMeta100,0 %6 décembre 2024✅ Mesuré
11MiniMax M1MiniMax100,0 %17 juin 2025✅ Mesuré
12Nemotron 3 Ultra (550B A55B)NVIDIA100,0 %4 juin 2026✅ Mesuré
13Qwen 3.5 PlusQwen100,0 %16 février 2026✅ Mesuré
14Qwen3 MaxQwen100,0 %9 février 2026✅ Mesuré
15Qwen3.5-397B-A17BQwen100,0 %16 février 2026✅ Mesuré
16Reka Flash 3rekaai100,0 %12 mars 2025✅ Mesuré
17Step-3.5-FlashStepFun100,0 %2 février 2026✅ Mesuré
18StepFun: Step 3.7 FlashStepFun100,0 %28 mai 2026✅ Mesuré
19hermes-3-llama-3.1-405bnousresearch100,0 %✅ Mesuré
20inclusionAI: Ling-2.6-1Tinclusionai100,0 %23 avril 2026✅ Mesuré

Classement établi sur 255 modèles évalués, dont 151 de grands éditeurs. Score médian de l'ensemble : 98,0 %.

Notre analyse

Un score élevé sur Benchable : Email Classification (Baseline) indique qu’un modèle sait associer de manière fiable des emails en anglais à des catégories courantes, avec une sortie conforme au libellé attendu. La métrique, fondée sur le taux de réussite par étape, favorise les réponses précises et non ambiguës. Les scores de cette base sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de solidité qu’un classement uniquement auto-déclaré.

Le benchmark présente toutefois des limites importantes. Avec 100 cas de test et un score médian de 98 % parmi les modèles évalués, l’épreuve apparaît très saturée : elle distingue mal les modèles déjà performants sur des tâches de classification simples. La portée reste limitée à l’anglais et à six catégories fixes, sans indication sur des emails ambigus, multilingues ou hors distribution. Le meilleur résultat atteint 100 %, ce qui montre surtout que certains modèles maîtrisent parfaitement ce format, mais ne suffit pas à conclure à une compréhension générale de la messagerie ou du contexte métier.


Sources des scores : benchable.