WideSearch

WideSearch est un benchmark d’IA créé par ByteDance Seed pour évaluer des tâches agentiques de recherche d’information à large couverture. Il mesure la capacité d’un modèle à explorer plusieurs sources en parallèle, à collecter des éléments atomiques vérifiables, puis à produire une…

WideSearch est un benchmark d’IA créé par ByteDance Seed pour évaluer des tâches agentiques de recherche d’information à large couverture. Il mesure la capacité d’un modèle à explorer plusieurs sources en parallèle, à collecter des éléments atomiques vérifiables, puis à produire une synthèse structurée.

Le benchmark se concentre sur des situations où la difficulté ne tient pas seulement au raisonnement, mais aussi à l’exhaustivité de la recherche. Il sert ainsi à comparer des modèles sur leur aptitude à organiser une collecte étendue d’informations et à restituer des réponses vérifiables en anglais et en chinois.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkByteDance Seed
Capacités mesuréesRecherche d'information large et parallèle à travers plusieurs sources, collecte exhaustive et synthèse en sortie structurée
ModalitéTexte
Type de questionstâches agentiques de recherche d'information à large couverture (collecte d'informations atomiques vérifiables)
Métrique d'évaluationtaux de réussite / vérification item par item (F1 au niveau item)
AccèsPublic
Languesanglais et chinois (bilingue)
Taille du jeu200 questions (100 anglais + 100 chinois), 15+ domaines
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2.6Moonshot AI80,8 %20 avril 2026Auto-déclaré
2Kimi K2.5Moonshot AI79,0 %27 janvier 2026Auto-déclaré
3Qwen3.6 PlusQwen74,3 %31 mars 2026Auto-déclaré
4Qwen3.5-397B-A17BQwen74,0 %16 février 2026Auto-déclaré
5Qwen3.5-27BQwen61,1 %24 février 2026Auto-déclaré
6Qwen3.5-122B-A10BQwen60,5 %24 février 2026Auto-déclaré
7Qwen3.6-35B-A3BQwen60,1 %16 avril 2026Auto-déclaré
8Qwen3.5-35B-A3BQwen57,1 %24 février 2026Auto-déclaré

Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 67,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur WideSearch indique qu’un modèle parvient à retrouver un grand nombre d’items attendus et à les faire valider individuellement, ce qui reflète une bonne couverture de recherche, une capacité de coordination entre sources et une synthèse suffisamment structurée pour être vérifiée. La métrique F1 au niveau item met l’accent sur la précision et le rappel des informations collectées, plutôt que sur une appréciation globale de la réponse. L’interprétation du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante. Le jeu reste ciblé sur 200 questions bilingues couvrant plus de 15 domaines, une taille utile pour l’analyse mais insuffisante pour exclure tout effet de spécialisation, de saturation progressive ou de contamination. Dans la base, l’écart entre le score médian et le meilleur résultat, obtenu par Kimi K2.6, suggère que les capacités de recherche large demeurent discriminantes entre modèles.


Sources des scores : llm-stats.