Autres benchmarks

Keyword Topic Relevance Classification

Benchable : Keyword Topic Relevance Classification est un benchmark textuel créé par Benchable. Il évalue la capacité d’un modèle à déterminer si un mot-clé est pertinent au regard d’un thème ou d’un sujet donné, dans un cadre de classification binaire.

Ce test sert à apprécier une compétence utile dans des tâches de recherche, de catégorisation, de SEO ou d’organisation documentaire. Il isole un jugement sémantique simple en apparence, mais révélateur de la compréhension du lien entre un terme et un contexte thématique.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Benchable
Capacités mesurées	Mesure la capacité d'un modèle à déterminer si un mot-clé est pertinent par rapport à un thème ou sujet donné.
Modalité	Texte
Type de questions	classification textuelle binaire

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT OSS 20B	OpenAI	100,0 %	5 août 2025	✅ Mesuré
2	Qwen: Qwen3 30B A3B Instruct 2507	Qwen	100,0 %	29 juillet 2025	✅ Mesuré
3	Qwen: Qwen3 Coder 30B A3B Instruct	Qwen	100,0 %	31 juillet 2025	✅ Mesuré
4	qwen3-235b-a22b-07-25	Qwen	100,0 %	—	✅ Mesuré
5	Kimi K2	Moonshot AI	90,0 %	6 novembre 2025	✅ Mesuré
6	Qwen3-235B-A22B-Thinking-2507	Qwen	90,0 %	25 juillet 2025	✅ Mesuré
7	Qwen: Qwen3 30B A3B Thinking 2507	Qwen	90,0 %	28 août 2025	✅ Mesuré
8	qwen3-coder-480b-a35b-07-25	Qwen	90,0 %	—	✅ Mesuré
9	GPT OSS 120B	OpenAI	70,0 %	5 août 2025	✅ Mesuré

Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 90,0 %.

Notre analyse

Un score élevé indique qu’un modèle associe correctement des mots-clés à des thèmes donnés et distingue les correspondances pertinentes des associations faibles ou hors sujet. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui les rend plus exploitables que de simples déclarations de performance. Le classement montre toutefois une forte concentration des résultats : avec un score médian de 90 % et un meilleur modèle, GPT OSS 20B (OpenAI), à 100 %, le benchmark peut être proche d’une zone de saturation pour les meilleurs systèmes évalués. Cette situation limite sa capacité à départager finement les modèles les plus performants. Les métadonnées publiques précises sur le jeu de données, sa licence et sa taille n’étant pas établies, l’évaluation de la portée, de la diversité des cas et du risque de contamination reste limitée. Le benchmark renseigne donc surtout une compétence ciblée de pertinence thématique, sans couvrir l’ensemble des capacités linguistiques ou raisonnées d’un modèle.

Sources des scores : benchable.

Keyword Topic Relevance Classification

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench