Keyword Topic Relevance Classification
Benchable : Keyword Topic Relevance Classification est un benchmark textuel créé par Benchable. Il évalue la capacité d’un modèle à déterminer si un mot-clé est pertinent au regard d’un thème ou d’un sujet donné, dans un cadre de classification binaire.
Benchable : Keyword Topic Relevance Classification est un benchmark textuel créé par Benchable. Il évalue la capacité d’un modèle à déterminer si un mot-clé est pertinent au regard d’un thème ou d’un sujet donné, dans un cadre de classification binaire.
Ce test sert à apprécier une compétence utile dans des tâches de recherche, de catégorisation, de SEO ou d’organisation documentaire. Il isole un jugement sémantique simple en apparence, mais révélateur de la compréhension du lien entre un terme et un contexte thématique.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Benchable |
| Capacités mesurées | Mesure la capacité d'un modèle à déterminer si un mot-clé est pertinent par rapport à un thème ou sujet donné. |
| Modalité | Texte |
| Type de questions | classification textuelle binaire |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT OSS 20B | OpenAI | 100,0 % | 5 août 2025 | ✅ Mesuré |
| 2 | Qwen: Qwen3 30B A3B Instruct 2507 | Qwen | 100,0 % | 29 juillet 2025 | ✅ Mesuré |
| 3 | Qwen: Qwen3 Coder 30B A3B Instruct | Qwen | 100,0 % | 31 juillet 2025 | ✅ Mesuré |
| 4 | qwen3-235b-a22b-07-25 | Qwen | 100,0 % | — | ✅ Mesuré |
| 5 | Kimi K2 | Moonshot AI | 90,0 % | 6 novembre 2025 | ✅ Mesuré |
| 6 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 90,0 % | 25 juillet 2025 | ✅ Mesuré |
| 7 | Qwen: Qwen3 30B A3B Thinking 2507 | Qwen | 90,0 % | 28 août 2025 | ✅ Mesuré |
| 8 | qwen3-coder-480b-a35b-07-25 | Qwen | 90,0 % | — | ✅ Mesuré |
| 9 | GPT OSS 120B | OpenAI | 70,0 % | 5 août 2025 | ✅ Mesuré |
Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 90,0 %.
Notre analyse
Un score élevé indique qu’un modèle associe correctement des mots-clés à des thèmes donnés et distingue les correspondances pertinentes des associations faibles ou hors sujet. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui les rend plus exploitables que de simples déclarations de performance. Le classement montre toutefois une forte concentration des résultats : avec un score médian de 90 % et un meilleur modèle, GPT OSS 20B (OpenAI), à 100 %, le benchmark peut être proche d’une zone de saturation pour les meilleurs systèmes évalués. Cette situation limite sa capacité à départager finement les modèles les plus performants. Les métadonnées publiques précises sur le jeu de données, sa licence et sa taille n’étant pas établies, l’évaluation de la portée, de la diversité des cas et du risque de contamination reste limitée. Le benchmark renseigne donc surtout une compétence ciblée de pertinence thématique, sans couvrir l’ensemble des capacités linguistiques ou raisonnées d’un modèle.
Sources des scores : benchable.