BrowseComp
BrowseComp est un benchmark créé par OpenAI pour évaluer des agents IA confrontés à des questions ouvertes nécessitant une recherche web active. Il cible des informations difficiles à trouver, souvent dispersées entre plusieurs sources, avec des réponses attendues courtes et vérifiables.
BrowseComp est un benchmark créé par OpenAI pour évaluer des agents IA confrontés à des questions ouvertes nécessitant une recherche web active. Il cible des informations difficiles à trouver, souvent dispersées entre plusieurs sources, avec des réponses attendues courtes et vérifiables.
Son intérêt est de mesurer autre chose qu’une simple restitution de connaissances: la persistance dans la collecte d’informations, la capacité à naviguer de façon créative sur le web et l’aptitude à produire une réponse concise. Il sert ainsi à comparer des modèles dans des tâches proches d’une enquête en ligne.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | agents, raisonnement, recherche |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte nécessitant une navigation web agentique |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 1 266 questions |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 Pro | OpenAI | 90,1 % | 23 avril 2026 | Auto-déclaré |
| 2 | Claude Mythos Preview | Anthropic | 86,9 % | — | Auto-déclaré |
| 3 | Kimi K2.6 | Moonshot AI | 86,3 % | 20 avril 2026 | Auto-déclaré |
| 4 | Seed 2.1 Pro | bytedance | 86,2 % | 24 juin 2026 | Auto-déclaré |
| 5 | Gemini 3.1 Pro Preview | 85,9 % | 19 février 2026 | Auto-déclaré | |
| 6 | Seed 2.1 Turbo | bytedance | 84,9 % | 24 juin 2026 | Auto-déclaré |
| 7 | GPT-5.5 | OpenAI | 84,4 % | 23 avril 2026 | Auto-déclaré |
| 8 | Claude Opus 4.8 | Anthropic | 84,3 % | 28 mai 2026 | Auto-déclaré |
| 9 | Claude Opus 4.6 | Anthropic | 84,0 % | 7 avril 2026 | Auto-déclaré |
| 10 | MiniMax M3 | MiniMax | 83,5 % | 1 juin 2026 | Auto-déclaré |
| 11 | DeepSeek-V4-Pro-Max | DeepSeek | 83,4 % | 23 avril 2026 | Auto-déclaré |
| 12 | GPT-5.4 | OpenAI | 82,7 % | 5 mars 2026 | Auto-déclaré |
| 13 | Claude Opus 4.7 | Anthropic | 79,3 % | 12 mai 2026 | Auto-déclaré |
| 14 | GLM-5.1 | Zhipu AI | 79,3 % | 7 avril 2026 | Auto-déclaré |
| 15 | GPT-5.2 Pro | OpenAI | 77,9 % | 11 décembre 2025 | Auto-déclaré |
| 16 | Seed 2.0 Pro | bytedance | 77,3 % | 14 février 2026 | Auto-déclaré |
| 17 | MiniMax M2.5 | MiniMax | 76,3 % | 12 février 2026 | Auto-déclaré |
| 18 | GLM-5 | Zhipu AI | 75,9 % | 11 février 2026 | Auto-déclaré |
| 19 | Kimi K2.5 | Moonshot AI | 74,9 % | 27 janvier 2026 | Auto-déclaré |
| 20 | Claude Sonnet 4.6 | Anthropic | 74,7 % | 17 février 2026 | Auto-déclaré |
Classement établi sur 51 modèles évalués, dont 29 de grands éditeurs. Score médian de l'ensemble : 62,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BrowseComp indique qu’un agent parvient plus souvent à retrouver une information enfouie sur le web et à la formuler sous une réponse courte conforme à la référence. La métrique d’accuracy rend la lecture des résultats directe, mais la fiabilité doit être interprétée avec prudence, car les scores de la base sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Le classement montre un écart net entre la médiane de l’ensemble, à 62 %, et le meilleur résultat recensé, GPT-5.5 Pro (OpenAI) à 90 %, ce qui suggère une différenciation importante entre agents sur la recherche web persistante. Les limites tiennent à la portée du benchmark, centré sur l’anglais et les réponses courtes, ainsi qu’aux risques habituels de saturation ou de contamination lorsque des jeux publics deviennent connus. BrowseComp renseigne donc surtout la robustesse en navigation web agentique, sans couvrir à lui seul l’ensemble des capacités d’un modèle.
Sources des scores : llm-stats.