Agents & outils

WideSearch

WideSearch est un benchmark d’IA créé par ByteDance Seed pour évaluer des tâches agentiques de recherche d’information à large couverture. Il mesure la capacité d’un modèle à explorer plusieurs sources en parallèle, à collecter des éléments atomiques vérifiables, puis à produire une…

Le benchmark se concentre sur des situations où la difficulté ne tient pas seulement au raisonnement, mais aussi à l’exhaustivité de la recherche. Il sert ainsi à comparer des modèles sur leur aptitude à organiser une collecte étendue d’informations et à restituer des réponses vérifiables en anglais et en chinois.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	ByteDance Seed
Capacités mesurées	Recherche d'information large et parallèle à travers plusieurs sources, collecte exhaustive et synthèse en sortie structurée
Modalité	Texte
Type de questions	tâches agentiques de recherche d'information à large couverture (collecte d'informations atomiques vérifiables)
Métrique d'évaluation	taux de réussite / vérification item par item (F1 au niveau item)
Accès	Public
Langues	anglais et chinois (bilingue)
Taille du jeu	200 questions (100 anglais + 100 chinois), 15+ domaines
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2.6	Moonshot AI	80,8 %	20 avril 2026	Auto-déclaré
2	Kimi K2.5	Moonshot AI	79,0 %	27 janvier 2026	Auto-déclaré
3	Qwen3.6 Plus	Qwen	74,3 %	31 mars 2026	Auto-déclaré
4	Qwen3.5-397B-A17B	Qwen	74,0 %	16 février 2026	Auto-déclaré
5	Qwen3.5-27B	Qwen	61,1 %	24 février 2026	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	60,5 %	24 février 2026	Auto-déclaré
7	Qwen3.6-35B-A3B	Qwen	60,1 %	16 avril 2026	Auto-déclaré
8	Qwen3.5-35B-A3B	Qwen	57,1 %	24 février 2026	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 67,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur WideSearch indique qu’un modèle parvient à retrouver un grand nombre d’items attendus et à les faire valider individuellement, ce qui reflète une bonne couverture de recherche, une capacité de coordination entre sources et une synthèse suffisamment structurée pour être vérifiée. La métrique F1 au niveau item met l’accent sur la précision et le rappel des informations collectées, plutôt que sur une appréciation globale de la réponse. L’interprétation du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante. Le jeu reste ciblé sur 200 questions bilingues couvrant plus de 15 domaines, une taille utile pour l’analyse mais insuffisante pour exclure tout effet de spécialisation, de saturation progressive ou de contamination. Dans la base, l’écart entre le score médian et le meilleur résultat, obtenu par Kimi K2.6, suggère que les capacités de recherche large demeurent discriminantes entre modèles.

Sources des scores : llm-stats.

WideSearch

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++