Recherche & embeddings

BrowseComp Long Context 128k

BrowseComp Long Context 128k est une déclinaison en contexte long du benchmark BrowseComp, créé par OpenAI à partir du travail de Jason Wei et al. Il évalue des agents capables de naviguer sur le web de façon persistante afin de retrouver des informations factuelles difficiles à localiser.

Le test met l’accent sur le raisonnement stratégique, la recherche créative et l’interprétation de contenus récupérés en ligne. Son rôle est de mesurer, dans un cadre vérifiable, la capacité d’un modèle à transformer une navigation complexe en réponse courte correcte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI (BrowseComp de base ; Jason Wei et al.)
Capacités mesurées	Navigation web persistante, raisonnement strategique et recherche creative d'informations difficiles a trouver, ici en configuration contexte long 128k.
Modalité	Texte
Type de questions	Questions factuelles a reponse courte verifiable (navigation web)
Métrique d'évaluation	Exactitude vs reponse de reference
Accès	Public
Langues	Anglais
Taille du jeu	1 266 questions
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.2	OpenAI	92,0 %	11 décembre 2025	Auto-déclaré
2	GPT-5	OpenAI	90,0 %	7 août 2025	Auto-déclaré
3	GPT-5.1	OpenAI	90,0 %	13 novembre 2025	Auto-déclaré
4	GPT-5.1 Instant	OpenAI	90,0 %	12 novembre 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 90,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BrowseComp Long Context 128k indique une forte aptitude à maintenir une recherche web sur la durée, à choisir des pistes pertinentes et à produire une réponse factuelle conforme à une référence. Dans la base observée, les résultats sont déjà très hauts, avec un score médian de 90% et un meilleur score de 92% pour GPT-5.2, ce qui suggère une faible dispersion et un risque de saturation pour départager les modèles les plus performants.

La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement indépendante. La portée du benchmark est aussi ciblée : questions en anglais, navigation web et réponses courtes vérifiables, sans couvrir l’ensemble des compétences d’un modèle. Enfin, les quatre modèles classés dans la base sont édités par OpenAI, qui a aussi co-développé le benchmark. Ce classement renseigne donc surtout sur des variantes OpenAI, sans constituer une source indépendante pour comparer OpenAI à d’autres éditeurs.

Sources des scores : llm-stats.

BrowseComp Long Context 128k

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench