DeepSearchQA

DeepSearchQA est un benchmark conçu par Google DeepMind, avec Elena Gribovskaya et ses coauteurs, pour évaluer les capacités de recherche profonde et de question-réponse des agents d’IA. Il cible des tâches de recherche multi-étapes, dans lesquelles un modèle doit enchaîner plusieurs…

DeepSearchQA est un benchmark conçu par Google DeepMind, avec Elena Gribovskaya et ses coauteurs, pour évaluer les capacités de recherche profonde et de question-réponse des agents d’IA. Il cible des tâches de recherche multi-étapes, dans lesquelles un modèle doit enchaîner plusieurs raisonnements et récupérations d’information.

Son intérêt est de dépasser les tests de factualité à réponse unique. Le benchmark mesure la capacité à exécuter un plan de recherche complexe et à produire une liste de réponses exhaustive, ce qui en fait un outil utile pour comparer des modèles orientés recherche, synthèse et exploration de domaines de connaissance.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle DeepMind (Elena Gribovskaya et al.)
Capacités mesuréesÉvalue les agents de recherche profonde sur leur aptitude à exécuter des plans de recherche multi-sauts et à produire des réponses exhaustives, au-delà de la simple factualité à réponse unique.
ModalitéTexte
Type de questionstâches de recherche multi-étapes (multi-hop) exigeant des listes de réponses exhaustives
Métrique d'évaluationexactitude « Fully Correct » (ensemble de réponses identique à la vérité terrain, ni omission ni intrus)
AccèsPublic
LicenceCC BY 4.0
Taille du jeu900 tâches (17 domaines)
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.8Anthropic93,1 %28 mai 2026Auto-déclaré
2Claude Opus 4.6Anthropic91,3 %7 avril 2026Auto-déclaré
3MiMo-V2-ProXiaomi86,7 %18 mars 2026Auto-déclaré
4Kimi K2.6Moonshot AI83,0 %20 avril 2026Auto-déclaré
5Kimi K2.5Moonshot AI77,1 %27 janvier 2026Auto-déclaré
6Muse SparkMeta74,8 %8 avril 2026Auto-déclaré

Classement établi sur 6 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 84,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur DeepSearchQA indique qu’un modèle parvient non seulement à trouver des éléments pertinents, mais aussi à constituer un ensemble de réponses complet, sans omission ni intrus, selon la métrique Fully Correct. Cette exigence rend l’évaluation plus stricte que des mesures partielles, car une réponse presque correcte reste pénalisée si l’ensemble final ne correspond pas exactement à la vérité terrain.

La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé, autour de 85 %, suggère que les meilleurs systèmes évalués maîtrisent déjà fortement ce format, tandis que Claude Opus 4.8 atteint le meilleur score recensé avec 93 %. Cette proximité peut signaler une possible saturation progressive du benchmark sur les modèles de pointe. Les limites portent aussi sur la portée du jeu, centré sur des tâches multi-hop à réponses exhaustives, et sur le risque général de contamination des données publiques. Le classement renseigne donc surtout sur la robustesse relative en recherche structurée, plutôt que sur une compétence universelle en raisonnement ou en expertise métier.


Sources des scores : llm-stats.