Recherche & embeddings

BrowseComp-zh

BrowseComp-zh est un benchmark conçu pour évaluer des agents LLM dans des tâches de navigation et de recherche d’information sur le web chinois. Créé par les auteurs BrowseComp-ZH, Peilin Zhou et al., il se concentre sur des questions multi-sauts à réponse courte, objective et vérifiable.

Le benchmark mesure la capacité à retrouver, croiser et réconcilier des informations issues de sources web, tout en tenant compte de difficultés linguistiques, culturelles, infrastructurelles et liées à la censure. Il sert ainsi de test spécialisé pour apprécier la robustesse des modèles au-delà de la simple récupération d’information.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs BrowseComp-ZH (Peilin Zhou et al.)
Capacités mesurées	Capacite de navigation web et de recherche d'information sur le web chinois, raisonnement multi-sauts, contexte culturel
Modalité	Texte
Type de questions	Questions multi-sauts a reponse courte verifiable (navigation web)
Métrique d'évaluation	Précision (accuracy)
Accès	Public
Licence	MIT
Langues	chinois
Taille du jeu	289 questions multi-sauts sur 11 domaines
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-397B-A17B	Qwen	70,3 %	16 février 2026	Auto-déclaré
2	Qwen3.5-122B-A10B	Qwen	69,9 %	24 février 2026	Auto-déclaré
3	Qwen3.5-35B-A3B	Qwen	69,5 %	24 février 2026	Auto-déclaré
4	LongCat-Flash-Thinking-2601	Meituan	69,0 %	14 janvier 2026	Auto-déclaré
5	GLM-4.7	Zhipu AI	66,6 %	22 décembre 2025	Auto-déclaré
6	DeepSeek-V3.2	DeepSeek	65,0 %	1 décembre 2025	Auto-déclaré
7	DeepSeek-V3.2 (Thinking)	DeepSeek	65,0 %	1 décembre 2025	Auto-déclaré
8	Kimi K2 0905	Moonshot AI	62,3 %	5 septembre 2025	Auto-déclaré
9	Qwen3.5-27B	Qwen	62,1 %	24 février 2026	Auto-déclaré
10	DeepSeek-V3.1	DeepSeek	49,2 %	10 janvier 2025	Auto-déclaré
11	MiniMax M2	MiniMax	48,5 %	27 octobre 2025	Auto-déclaré
12	DeepSeek-V3.2-Exp	DeepSeek	47,9 %	29 septembre 2025	Auto-déclaré
13	DeepSeek-R1-0528	DeepSeek	35,7 %	28 mai 2025	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 65,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BrowseComp-zh indique une bonne aptitude à naviguer dans le web chinois, à enchaîner plusieurs étapes de recherche et à produire une réponse courte vérifiable après réconciliation d’indices dispersés. La métrique repose sur la précision, ce qui rend l’interprétation directe, mais ne décrit pas en détail les chemins de raisonnement ni la qualité des sources consultées. Dans la base considérée, le meilleur résultat atteint 70% avec Qwen3.5-397B-A17B, pour une médiane de 65% sur 13 modèles évalués, ce qui suggère un écart limité entre les systèmes suivis et une difficulté encore notable du benchmark. La fiabilité doit toutefois être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites incluent un risque de contamination future, une possible saturation si les modèles se rapprochent rapidement du plafond observé, et une portée centrée sur le chinois et sur certains domaines du web. Le classement met surtout en évidence les modèles les plus adaptés à cet environnement spécifique.

Sources des scores : llm-stats.

BrowseComp-zh

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench