BrowseComp Long Context 128k
BrowseComp Long Context 128k est une déclinaison en contexte long du benchmark BrowseComp, créé par OpenAI à partir du travail de Jason Wei et al. Il évalue des agents capables de naviguer sur le web de façon persistante afin de retrouver des informations factuelles difficiles à localiser.
BrowseComp Long Context 128k est une déclinaison en contexte long du benchmark BrowseComp, créé par OpenAI à partir du travail de Jason Wei et al. Il évalue des agents capables de naviguer sur le web de façon persistante afin de retrouver des informations factuelles difficiles à localiser.
Le test met l’accent sur le raisonnement stratégique, la recherche créative et l’interprétation de contenus récupérés en ligne. Son rôle est de mesurer, dans un cadre vérifiable, la capacité d’un modèle à transformer une navigation complexe en réponse courte correcte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI (BrowseComp de base ; Jason Wei et al.) |
| Capacités mesurées | Navigation web persistante, raisonnement strategique et recherche creative d'informations difficiles a trouver, ici en configuration contexte long 128k. |
| Modalité | Texte |
| Type de questions | Questions factuelles a reponse courte verifiable (navigation web) |
| Métrique d'évaluation | Exactitude vs reponse de reference |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 1 266 questions |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.2 | OpenAI | 92,0 % | 11 décembre 2025 | Auto-déclaré |
| 2 | GPT-5 | OpenAI | 90,0 % | 7 août 2025 | Auto-déclaré |
| 3 | GPT-5.1 | OpenAI | 90,0 % | 13 novembre 2025 | Auto-déclaré |
| 4 | GPT-5.1 Instant | OpenAI | 90,0 % | 12 novembre 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 90,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BrowseComp Long Context 128k indique une forte aptitude à maintenir une recherche web sur la durée, à choisir des pistes pertinentes et à produire une réponse factuelle conforme à une référence. Dans la base observée, les résultats sont déjà très hauts, avec un score médian de 90% et un meilleur score de 92% pour GPT-5.2, ce qui suggère une faible dispersion et un risque de saturation pour départager les modèles les plus performants.
La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement indépendante. La portée du benchmark est aussi ciblée : questions en anglais, navigation web et réponses courtes vérifiables, sans couvrir l’ensemble des compétences d’un modèle. Enfin, les quatre modèles classés dans la base sont édités par OpenAI, qui a aussi co-développé le benchmark. Ce classement renseigne donc surtout sur des variantes OpenAI, sans constituer une source indépendante pour comparer OpenAI à d’autres éditeurs.
Sources des scores : llm-stats.