Seal-0

Seal-0 est un benchmark public consacré à la recherche augmentée robuste. Créé en 2025 par les auteurs de SealQA, Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng et Tu Vu, il évalue la capacité des modèles à répondre à des questions factuelles lorsque les…

Seal-0 est un benchmark public consacré à la recherche augmentée robuste. Créé en 2025 par les auteurs de SealQA, Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng et Tu Vu, il évalue la capacité des modèles à répondre à des questions factuelles lorsque les résultats de recherche web sont conflictuels, bruités ou inutiles.

Le benchmark s’inscrit dans l’évaluation des capacités de recherche agentique, c’est-à-dire l’aptitude à naviguer parmi des informations externes, à récupérer les éléments pertinents et à produire une réponse factuelle malgré un contexte documentaire imparfait.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs SealQA (Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu)
Capacités mesuréesRecherche augmentee robuste : raisonnement factuel face a des resultats de recherche web conflictuels, bruites ou inutiles.
ModalitéTexte
Type de questionsQuestions factuelles (fact-seeking) avec resultats de recherche bruites/conflictuels
Métrique d'évaluationExactitude (accuracy)
AccèsPublic
LanguesAnglais
Année de publication2025
RessourcesArticle scientifique

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2.5Moonshot AI57,4 %27 janvier 2026Auto-déclaré
2Kimi K2 0905Moonshot AI56,3 %5 septembre 2025Auto-déclaré
3Qwen3.5-27BQwen47,2 %24 février 2026Auto-déclaré
4Qwen3.5-397B-A17BQwen46,9 %16 février 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen44,1 %24 février 2026Auto-déclaré
6Qwen3.5-35B-A3BQwen41,4 %24 février 2026Auto-déclaré

Classement établi sur 6 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 47,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Seal-0 indique une meilleure aptitude à distinguer les informations utiles des résultats trompeurs ou redondants, puis à raisonner factuellement à partir de ce matériau. L’évaluation repose sur l’exactitude, ce qui rend la lecture des résultats directe, mais la fiabilité doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le classement montre un niveau de difficulté encore marqué : parmi les six modèles suivis, le meilleur résultat est celui de Kimi K2.5 à 57 %, tandis que le score médian atteint 47 %. Ces chiffres ne suggèrent pas une saturation nette du benchmark dans cet échantillon. Les limites tiennent aussi à la portée du test, centré sur des questions factuelles en anglais avec résultats de recherche bruités ou conflictuels, et non sur l’ensemble des usages de recherche ou de raisonnement. Son accès public peut également accroître le risque de contamination, sans que cela soit quantifié ici.


Sources des scores : llm-stats.