Seal-0
Seal-0 est un benchmark public consacré à la recherche augmentée robuste. Créé en 2025 par les auteurs de SealQA, Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng et Tu Vu, il évalue la capacité des modèles à répondre à des questions factuelles lorsque les…
Seal-0 est un benchmark public consacré à la recherche augmentée robuste. Créé en 2025 par les auteurs de SealQA, Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng et Tu Vu, il évalue la capacité des modèles à répondre à des questions factuelles lorsque les résultats de recherche web sont conflictuels, bruités ou inutiles.
Le benchmark s’inscrit dans l’évaluation des capacités de recherche agentique, c’est-à-dire l’aptitude à naviguer parmi des informations externes, à récupérer les éléments pertinents et à produire une réponse factuelle malgré un contexte documentaire imparfait.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs SealQA (Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu) |
| Capacités mesurées | Recherche augmentee robuste : raisonnement factuel face a des resultats de recherche web conflictuels, bruites ou inutiles. |
| Modalité | Texte |
| Type de questions | Questions factuelles (fact-seeking) avec resultats de recherche bruites/conflictuels |
| Métrique d'évaluation | Exactitude (accuracy) |
| Accès | Public |
| Langues | Anglais |
| Année de publication | 2025 |
| Ressources | Article scientifique |
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2.5 | Moonshot AI | 57,4 % | 27 janvier 2026 | Auto-déclaré |
| 2 | Kimi K2 0905 | Moonshot AI | 56,3 % | 5 septembre 2025 | Auto-déclaré |
| 3 | Qwen3.5-27B | Qwen | 47,2 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-397B-A17B | Qwen | 46,9 % | 16 février 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 44,1 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-35B-A3B | Qwen | 41,4 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 47,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Seal-0 indique une meilleure aptitude à distinguer les informations utiles des résultats trompeurs ou redondants, puis à raisonner factuellement à partir de ce matériau. L’évaluation repose sur l’exactitude, ce qui rend la lecture des résultats directe, mais la fiabilité doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le classement montre un niveau de difficulté encore marqué : parmi les six modèles suivis, le meilleur résultat est celui de Kimi K2.5 à 57 %, tandis que le score médian atteint 47 %. Ces chiffres ne suggèrent pas une saturation nette du benchmark dans cet échantillon. Les limites tiennent aussi à la portée du test, centré sur des questions factuelles en anglais avec résultats de recherche bruités ou conflictuels, et non sur l’ensemble des usages de recherche ou de raisonnement. Son accès public peut également accroître le risque de contamination, sans que cela soit quantifié ici.
Sources des scores : llm-stats.