BrowseComp-zh

BrowseComp-zh est un benchmark conçu pour évaluer des agents LLM dans des tâches de navigation et de recherche d’information sur le web chinois. Créé par les auteurs BrowseComp-ZH, Peilin Zhou et al., il se concentre sur des questions multi-sauts à réponse courte, objective et vérifiable.

BrowseComp-zh est un benchmark conçu pour évaluer des agents LLM dans des tâches de navigation et de recherche d’information sur le web chinois. Créé par les auteurs BrowseComp-ZH, Peilin Zhou et al., il se concentre sur des questions multi-sauts à réponse courte, objective et vérifiable.

Le benchmark mesure la capacité à retrouver, croiser et réconcilier des informations issues de sources web, tout en tenant compte de difficultés linguistiques, culturelles, infrastructurelles et liées à la censure. Il sert ainsi de test spécialisé pour apprécier la robustesse des modèles au-delà de la simple récupération d’information.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs BrowseComp-ZH (Peilin Zhou et al.)
Capacités mesuréesCapacite de navigation web et de recherche d'information sur le web chinois, raisonnement multi-sauts, contexte culturel
ModalitéTexte
Type de questionsQuestions multi-sauts a reponse courte verifiable (navigation web)
Métrique d'évaluationPrécision (accuracy)
AccèsPublic
LicenceMIT
Langueschinois
Taille du jeu289 questions multi-sauts sur 11 domaines
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-397B-A17BQwen70,3 %16 février 2026Auto-déclaré
2Qwen3.5-122B-A10BQwen69,9 %24 février 2026Auto-déclaré
3Qwen3.5-35B-A3BQwen69,5 %24 février 2026Auto-déclaré
4LongCat-Flash-Thinking-2601Meituan69,0 %14 janvier 2026Auto-déclaré
5GLM-4.7Zhipu AI66,6 %22 décembre 2025Auto-déclaré
6DeepSeek-V3.2DeepSeek65,0 %1 décembre 2025Auto-déclaré
7DeepSeek-V3.2 (Thinking)DeepSeek65,0 %1 décembre 2025Auto-déclaré
8Kimi K2 0905Moonshot AI62,3 %5 septembre 2025Auto-déclaré
9Qwen3.5-27BQwen62,1 %24 février 2026Auto-déclaré
10DeepSeek-V3.1DeepSeek49,2 %10 janvier 2025Auto-déclaré
11MiniMax M2MiniMax48,5 %27 octobre 2025Auto-déclaré
12DeepSeek-V3.2-ExpDeepSeek47,9 %29 septembre 2025Auto-déclaré
13DeepSeek-R1-0528DeepSeek35,7 %28 mai 2025Auto-déclaré

Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 65,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BrowseComp-zh indique une bonne aptitude à naviguer dans le web chinois, à enchaîner plusieurs étapes de recherche et à produire une réponse courte vérifiable après réconciliation d’indices dispersés. La métrique repose sur la précision, ce qui rend l’interprétation directe, mais ne décrit pas en détail les chemins de raisonnement ni la qualité des sources consultées. Dans la base considérée, le meilleur résultat atteint 70% avec Qwen3.5-397B-A17B, pour une médiane de 65% sur 13 modèles évalués, ce qui suggère un écart limité entre les systèmes suivis et une difficulté encore notable du benchmark. La fiabilité doit toutefois être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites incluent un risque de contamination future, une possible saturation si les modèles se rapprochent rapidement du plafond observé, et une portée centrée sur le chinois et sur certains domaines du web. Le classement met surtout en évidence les modèles les plus adaptés à cet environnement spécifique.


Sources des scores : llm-stats.