Recherche & embeddings

Seal-0

Seal-0 est un benchmark public consacré à la recherche augmentée robuste. Créé en 2025 par les auteurs de SealQA, Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng et Tu Vu, il évalue la capacité des modèles à répondre à des questions factuelles lorsque les…

Le benchmark s’inscrit dans l’évaluation des capacités de recherche agentique, c’est-à-dire l’aptitude à naviguer parmi des informations externes, à récupérer les éléments pertinents et à produire une réponse factuelle malgré un contexte documentaire imparfait.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs SealQA (Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu)
Capacités mesurées	Recherche augmentee robuste : raisonnement factuel face a des resultats de recherche web conflictuels, bruites ou inutiles.
Modalité	Texte
Type de questions	Questions factuelles (fact-seeking) avec resultats de recherche bruites/conflictuels
Métrique d'évaluation	Exactitude (accuracy)
Accès	Public
Langues	Anglais
Année de publication	2025
Ressources	Article scientifique

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2.5	Moonshot AI	57,4 %	27 janvier 2026	Auto-déclaré
2	Kimi K2 0905	Moonshot AI	56,3 %	5 septembre 2025	Auto-déclaré
3	Qwen3.5-27B	Qwen	47,2 %	24 février 2026	Auto-déclaré
4	Qwen3.5-397B-A17B	Qwen	46,9 %	16 février 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	44,1 %	24 février 2026	Auto-déclaré
6	Qwen3.5-35B-A3B	Qwen	41,4 %	24 février 2026	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 47,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Seal-0 indique une meilleure aptitude à distinguer les informations utiles des résultats trompeurs ou redondants, puis à raisonner factuellement à partir de ce matériau. L’évaluation repose sur l’exactitude, ce qui rend la lecture des résultats directe, mais la fiabilité doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le classement montre un niveau de difficulté encore marqué : parmi les six modèles suivis, le meilleur résultat est celui de Kimi K2.5 à 57 %, tandis que le score médian atteint 47 %. Ces chiffres ne suggèrent pas une saturation nette du benchmark dans cet échantillon. Les limites tiennent aussi à la portée du test, centré sur des questions factuelles en anglais avec résultats de recherche bruités ou conflictuels, et non sur l’ensemble des usages de recherche ou de raisonnement. Son accès public peut également accroître le risque de contamination, sans que cela soit quantifié ici.

Sources des scores : llm-stats.

Seal-0

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23