Email Classification (Baseline)
Benchable : Email Classification (Baseline) est un benchmark public conçu par Benchable pour évaluer une tâche simple et fréquente : attribuer à un email une seule catégorie parmi six options prédéfinies, comme Spam, Business, Personnel, Newsletter, Service client ou Transactionnel.
Benchable : Email Classification (Baseline) est un benchmark public conçu par Benchable pour évaluer une tâche simple et fréquente : attribuer à un email une seule catégorie parmi six options prédéfinies, comme Spam, Business, Personnel, Newsletter, Service client ou Transactionnel.
Il sert de test de base pour mesurer la capacité d’un modèle à reconnaître l’intention générale d’un message et à produire exactement le nom de catégorie attendu. Sa validation repose sur une correspondance de libellé, insensible à la casse, ce qui en fait un repère direct pour la classification d’emails.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Classification d'emails en six categories (Spam, Business, Personnel, Newsletter, Service client, Transactionnel) |
| Modalité | Texte |
| Type de questions | Classification mono-label (email -> 1 des 6 categories) |
| Métrique d'évaluation | Taux de reussite par etape ; correspondance du nom de categorie correct (insensible a la casse) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 100 cas de test |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | AionLabs: Aion-1.0 | aion-labs | 100,0 % | 4 février 2025 | ✅ Mesuré |
| 2 | DeepSeek V4 Pro | DeepSeek | 100,0 % | 24 avril 2026 | ✅ Mesuré |
| 3 | DeepSeek-R1 | DeepSeek | 100,0 % | 28 mai 2025 | ✅ Mesuré |
| 4 | GLM-4.6 | Zhipu AI | 100,0 % | 30 septembre 2025 | ✅ Mesuré |
| 5 | GLM-4.7-Flash | Zhipu AI | 100,0 % | 19 janvier 2026 | ✅ Mesuré |
| 6 | GPT-4 Turbo | OpenAI | 100,0 % | 9 avril 2024 | ✅ Mesuré |
| 7 | Gemini 2.5 Flash-Lite | 100,0 % | 17 juin 2025 | ✅ Mesuré | |
| 8 | Grok 4.3 | xAI | 100,0 % | 6 mai 2026 | ✅ Mesuré |
| 9 | Kimi K2.6 | Moonshot AI | 100,0 % | 20 avril 2026 | ✅ Mesuré |
| 10 | Llama 3.3 70B Instruct | Meta | 100,0 % | 6 décembre 2024 | ✅ Mesuré |
| 11 | MiniMax M1 | MiniMax | 100,0 % | 17 juin 2025 | ✅ Mesuré |
| 12 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 100,0 % | 4 juin 2026 | ✅ Mesuré |
| 13 | Qwen 3.5 Plus | Qwen | 100,0 % | 16 février 2026 | ✅ Mesuré |
| 14 | Qwen3 Max | Qwen | 100,0 % | 9 février 2026 | ✅ Mesuré |
| 15 | Qwen3.5-397B-A17B | Qwen | 100,0 % | 16 février 2026 | ✅ Mesuré |
| 16 | Reka Flash 3 | rekaai | 100,0 % | 12 mars 2025 | ✅ Mesuré |
| 17 | Step-3.5-Flash | StepFun | 100,0 % | 2 février 2026 | ✅ Mesuré |
| 18 | StepFun: Step 3.7 Flash | StepFun | 100,0 % | 28 mai 2026 | ✅ Mesuré |
| 19 | hermes-3-llama-3.1-405b | nousresearch | 100,0 % | — | ✅ Mesuré |
| 20 | inclusionAI: Ling-2.6-1T | inclusionai | 100,0 % | 23 avril 2026 | ✅ Mesuré |
Classement établi sur 255 modèles évalués, dont 151 de grands éditeurs. Score médian de l'ensemble : 98,0 %.
Notre analyse
Un score élevé sur Benchable : Email Classification (Baseline) indique qu’un modèle sait associer de manière fiable des emails en anglais à des catégories courantes, avec une sortie conforme au libellé attendu. La métrique, fondée sur le taux de réussite par étape, favorise les réponses précises et non ambiguës. Les scores de cette base sont au moins partiellement mesurés par un tiers, ce qui apporte davantage de solidité qu’un classement uniquement auto-déclaré.
Le benchmark présente toutefois des limites importantes. Avec 100 cas de test et un score médian de 98 % parmi les modèles évalués, l’épreuve apparaît très saturée : elle distingue mal les modèles déjà performants sur des tâches de classification simples. La portée reste limitée à l’anglais et à six catégories fixes, sans indication sur des emails ambigus, multilingues ou hors distribution. Le meilleur résultat atteint 100 %, ce qui montre surtout que certains modèles maîtrisent parfaitement ce format, mais ne suffit pas à conclure à une compréhension générale de la messagerie ou du contexte métier.
Sources des scores : benchable.