Agents & outils

DeepSearchQA

DeepSearchQA est un benchmark conçu par Google DeepMind, avec Elena Gribovskaya et ses coauteurs, pour évaluer les capacités de recherche profonde et de question-réponse des agents d’IA. Il cible des tâches de recherche multi-étapes, dans lesquelles un modèle doit enchaîner plusieurs…

Son intérêt est de dépasser les tests de factualité à réponse unique. Le benchmark mesure la capacité à exécuter un plan de recherche complexe et à produire une liste de réponses exhaustive, ce qui en fait un outil utile pour comparer des modèles orientés recherche, synthèse et exploration de domaines de connaissance.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google DeepMind (Elena Gribovskaya et al.)
Capacités mesurées	Évalue les agents de recherche profonde sur leur aptitude à exécuter des plans de recherche multi-sauts et à produire des réponses exhaustives, au-delà de la simple factualité à réponse unique.
Modalité	Texte
Type de questions	tâches de recherche multi-étapes (multi-hop) exigeant des listes de réponses exhaustives
Métrique d'évaluation	exactitude « Fully Correct » (ensemble de réponses identique à la vérité terrain, ni omission ni intrus)
Accès	Public
Licence	CC BY 4.0
Taille du jeu	900 tâches (17 domaines)
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.8	Anthropic	93,1 %	28 mai 2026	Auto-déclaré
2	Claude Opus 4.6	Anthropic	91,3 %	7 avril 2026	Auto-déclaré
3	MiMo-V2-Pro	Xiaomi	86,7 %	18 mars 2026	Auto-déclaré
4	Kimi K2.6	Moonshot AI	83,0 %	20 avril 2026	Auto-déclaré
5	Kimi K2.5	Moonshot AI	77,1 %	27 janvier 2026	Auto-déclaré
6	Muse Spark	Meta	74,8 %	8 avril 2026	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 84,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur DeepSearchQA indique qu’un modèle parvient non seulement à trouver des éléments pertinents, mais aussi à constituer un ensemble de réponses complet, sans omission ni intrus, selon la métrique Fully Correct. Cette exigence rend l’évaluation plus stricte que des mesures partielles, car une réponse presque correcte reste pénalisée si l’ensemble final ne correspond pas exactement à la vérité terrain.

La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé, autour de 85 %, suggère que les meilleurs systèmes évalués maîtrisent déjà fortement ce format, tandis que Claude Opus 4.8 atteint le meilleur score recensé avec 93 %. Cette proximité peut signaler une possible saturation progressive du benchmark sur les modèles de pointe. Les limites portent aussi sur la portée du jeu, centré sur des tâches multi-hop à réponses exhaustives, et sur le risque général de contamination des données publiques. Le classement renseigne donc surtout sur la robustesse relative en recherche structurée, plutôt que sur une compétence universelle en raisonnement ou en expertise métier.

Sources des scores : llm-stats.

DeepSearchQA

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench