BrowseComp-zh
BrowseComp-zh est un benchmark conçu pour évaluer des agents LLM dans des tâches de navigation et de recherche d’information sur le web chinois. Créé par les auteurs BrowseComp-ZH, Peilin Zhou et al., il se concentre sur des questions multi-sauts à réponse courte, objective et vérifiable.
BrowseComp-zh est un benchmark conçu pour évaluer des agents LLM dans des tâches de navigation et de recherche d’information sur le web chinois. Créé par les auteurs BrowseComp-ZH, Peilin Zhou et al., il se concentre sur des questions multi-sauts à réponse courte, objective et vérifiable.
Le benchmark mesure la capacité à retrouver, croiser et réconcilier des informations issues de sources web, tout en tenant compte de difficultés linguistiques, culturelles, infrastructurelles et liées à la censure. Il sert ainsi de test spécialisé pour apprécier la robustesse des modèles au-delà de la simple récupération d’information.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs BrowseComp-ZH (Peilin Zhou et al.) |
| Capacités mesurées | Capacite de navigation web et de recherche d'information sur le web chinois, raisonnement multi-sauts, contexte culturel |
| Modalité | Texte |
| Type de questions | Questions multi-sauts a reponse courte verifiable (navigation web) |
| Métrique d'évaluation | Précision (accuracy) |
| Accès | Public |
| Licence | MIT |
| Langues | chinois |
| Taille du jeu | 289 questions multi-sauts sur 11 domaines |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-397B-A17B | Qwen | 70,3 % | 16 février 2026 | Auto-déclaré |
| 2 | Qwen3.5-122B-A10B | Qwen | 69,9 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-35B-A3B | Qwen | 69,5 % | 24 février 2026 | Auto-déclaré |
| 4 | LongCat-Flash-Thinking-2601 | Meituan | 69,0 % | 14 janvier 2026 | Auto-déclaré |
| 5 | GLM-4.7 | Zhipu AI | 66,6 % | 22 décembre 2025 | Auto-déclaré |
| 6 | DeepSeek-V3.2 | DeepSeek | 65,0 % | 1 décembre 2025 | Auto-déclaré |
| 7 | DeepSeek-V3.2 (Thinking) | DeepSeek | 65,0 % | 1 décembre 2025 | Auto-déclaré |
| 8 | Kimi K2 0905 | Moonshot AI | 62,3 % | 5 septembre 2025 | Auto-déclaré |
| 9 | Qwen3.5-27B | Qwen | 62,1 % | 24 février 2026 | Auto-déclaré |
| 10 | DeepSeek-V3.1 | DeepSeek | 49,2 % | 10 janvier 2025 | Auto-déclaré |
| 11 | MiniMax M2 | MiniMax | 48,5 % | 27 octobre 2025 | Auto-déclaré |
| 12 | DeepSeek-V3.2-Exp | DeepSeek | 47,9 % | 29 septembre 2025 | Auto-déclaré |
| 13 | DeepSeek-R1-0528 | DeepSeek | 35,7 % | 28 mai 2025 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 65,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BrowseComp-zh indique une bonne aptitude à naviguer dans le web chinois, à enchaîner plusieurs étapes de recherche et à produire une réponse courte vérifiable après réconciliation d’indices dispersés. La métrique repose sur la précision, ce qui rend l’interprétation directe, mais ne décrit pas en détail les chemins de raisonnement ni la qualité des sources consultées. Dans la base considérée, le meilleur résultat atteint 70% avec Qwen3.5-397B-A17B, pour une médiane de 65% sur 13 modèles évalués, ce qui suggère un écart limité entre les systèmes suivis et une difficulté encore notable du benchmark. La fiabilité doit toutefois être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites incluent un risque de contamination future, une possible saturation si les modèles se rapprochent rapidement du plafond observé, et une portée centrée sur le chinois et sur certains domaines du web. Le classement met surtout en évidence les modèles les plus adaptés à cet environnement spécifique.
Sources des scores : llm-stats.