Keyword Topic Relevance Classification

Benchable : Keyword Topic Relevance Classification est un benchmark textuel créé par Benchable. Il évalue la capacité d’un modèle à déterminer si un mot-clé est pertinent au regard d’un thème ou d’un sujet donné, dans un cadre de classification binaire.

Benchable : Keyword Topic Relevance Classification est un benchmark textuel créé par Benchable. Il évalue la capacité d’un modèle à déterminer si un mot-clé est pertinent au regard d’un thème ou d’un sujet donné, dans un cadre de classification binaire.

Ce test sert à apprécier une compétence utile dans des tâches de recherche, de catégorisation, de SEO ou d’organisation documentaire. Il isole un jugement sémantique simple en apparence, mais révélateur de la compréhension du lien entre un terme et un contexte thématique.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBenchable
Capacités mesuréesMesure la capacité d'un modèle à déterminer si un mot-clé est pertinent par rapport à un thème ou sujet donné.
ModalitéTexte
Type de questionsclassification textuelle binaire

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1GPT OSS 20BOpenAI100,0 %5 août 2025✅ Mesuré
2Qwen: Qwen3 30B A3B Instruct 2507Qwen100,0 %29 juillet 2025✅ Mesuré
3Qwen: Qwen3 Coder 30B A3B InstructQwen100,0 %31 juillet 2025✅ Mesuré
4qwen3-235b-a22b-07-25Qwen100,0 %✅ Mesuré
5Kimi K2Moonshot AI90,0 %6 novembre 2025✅ Mesuré
6Qwen3-235B-A22B-Thinking-2507Qwen90,0 %25 juillet 2025✅ Mesuré
7Qwen: Qwen3 30B A3B Thinking 2507Qwen90,0 %28 août 2025✅ Mesuré
8qwen3-coder-480b-a35b-07-25Qwen90,0 %✅ Mesuré
9GPT OSS 120BOpenAI70,0 %5 août 2025✅ Mesuré

Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 90,0 %.

Notre analyse

Un score élevé indique qu’un modèle associe correctement des mots-clés à des thèmes donnés et distingue les correspondances pertinentes des associations faibles ou hors sujet. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui les rend plus exploitables que de simples déclarations de performance. Le classement montre toutefois une forte concentration des résultats : avec un score médian de 90 % et un meilleur modèle, GPT OSS 20B (OpenAI), à 100 %, le benchmark peut être proche d’une zone de saturation pour les meilleurs systèmes évalués. Cette situation limite sa capacité à départager finement les modèles les plus performants. Les métadonnées publiques précises sur le jeu de données, sa licence et sa taille n’étant pas établies, l’évaluation de la portée, de la diversité des cas et du risque de contamination reste limitée. Le benchmark renseigne donc surtout une compétence ciblée de pertinence thématique, sans couvrir l’ensemble des capacités linguistiques ou raisonnées d’un modèle.


Sources des scores : benchable.