BrowseComp Long Context 128k

BrowseComp Long Context 128k est une déclinaison en contexte long du benchmark BrowseComp, créé par OpenAI à partir du travail de Jason Wei et al. Il évalue des agents capables de naviguer sur le web de façon persistante afin de retrouver des informations factuelles difficiles à localiser.

BrowseComp Long Context 128k est une déclinaison en contexte long du benchmark BrowseComp, créé par OpenAI à partir du travail de Jason Wei et al. Il évalue des agents capables de naviguer sur le web de façon persistante afin de retrouver des informations factuelles difficiles à localiser.

Le test met l’accent sur le raisonnement stratégique, la recherche créative et l’interprétation de contenus récupérés en ligne. Son rôle est de mesurer, dans un cadre vérifiable, la capacité d’un modèle à transformer une navigation complexe en réponse courte correcte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI (BrowseComp de base ; Jason Wei et al.)
Capacités mesuréesNavigation web persistante, raisonnement strategique et recherche creative d'informations difficiles a trouver, ici en configuration contexte long 128k.
ModalitéTexte
Type de questionsQuestions factuelles a reponse courte verifiable (navigation web)
Métrique d'évaluationExactitude vs reponse de reference
AccèsPublic
LanguesAnglais
Taille du jeu1 266 questions
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.2OpenAI92,0 %11 décembre 2025Auto-déclaré
2GPT-5OpenAI90,0 %7 août 2025Auto-déclaré
3GPT-5.1OpenAI90,0 %13 novembre 2025Auto-déclaré
4GPT-5.1 InstantOpenAI90,0 %12 novembre 2025Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 90,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BrowseComp Long Context 128k indique une forte aptitude à maintenir une recherche web sur la durée, à choisir des pistes pertinentes et à produire une réponse factuelle conforme à une référence. Dans la base observée, les résultats sont déjà très hauts, avec un score médian de 90% et un meilleur score de 92% pour GPT-5.2, ce qui suggère une faible dispersion et un risque de saturation pour départager les modèles les plus performants.

La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement indépendante. La portée du benchmark est aussi ciblée : questions en anglais, navigation web et réponses courtes vérifiables, sans couvrir l’ensemble des compétences d’un modèle. Enfin, les quatre modèles classés dans la base sont édités par OpenAI, qui a aussi co-développé le benchmark. Ce classement renseigne donc surtout sur des variantes OpenAI, sans constituer une source indépendante pour comparer OpenAI à d’autres éditeurs.


Sources des scores : llm-stats.