Agents & outils

BrowseComp

BrowseComp est un benchmark créé par OpenAI pour évaluer des agents IA confrontés à des questions ouvertes nécessitant une recherche web active. Il cible des informations difficiles à trouver, souvent dispersées entre plusieurs sources, avec des réponses attendues courtes et vérifiables.

Son intérêt est de mesurer autre chose qu’une simple restitution de connaissances: la persistance dans la collecte d’informations, la capacité à naviguer de façon créative sur le web et l’aptitude à produire une réponse concise. Il sert ainsi à comparer des modèles dans des tâches proches d’une enquête en ligne.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	agents, raisonnement, recherche
Modalité	Texte
Type de questions	questions ouvertes à réponse courte nécessitant une navigation web agentique
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	1 266 questions
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5 Pro	OpenAI	90,1 %	23 avril 2026	Auto-déclaré
2	Claude Mythos Preview	Anthropic	86,9 %	—	Auto-déclaré
3	Kimi K2.6	Moonshot AI	86,3 %	20 avril 2026	Auto-déclaré
4	Seed 2.1 Pro	bytedance	86,2 %	24 juin 2026	Auto-déclaré
5	Gemini 3.1 Pro Preview	Google	85,9 %	19 février 2026	Auto-déclaré
6	Seed 2.1 Turbo	bytedance	84,9 %	24 juin 2026	Auto-déclaré
7	GPT-5.5	OpenAI	84,4 %	23 avril 2026	Auto-déclaré
8	Claude Opus 4.8	Anthropic	84,3 %	28 mai 2026	Auto-déclaré
9	Claude Opus 4.6	Anthropic	84,0 %	7 avril 2026	Auto-déclaré
10	MiniMax M3	MiniMax	83,5 %	1 juin 2026	Auto-déclaré
11	DeepSeek-V4-Pro-Max	DeepSeek	83,4 %	23 avril 2026	Auto-déclaré
12	GPT-5.4	OpenAI	82,7 %	5 mars 2026	Auto-déclaré
13	Claude Opus 4.7	Anthropic	79,3 %	12 mai 2026	Auto-déclaré
14	GLM-5.1	Zhipu AI	79,3 %	7 avril 2026	Auto-déclaré
15	GPT-5.2 Pro	OpenAI	77,9 %	11 décembre 2025	Auto-déclaré
16	Seed 2.0 Pro	bytedance	77,3 %	14 février 2026	Auto-déclaré
17	MiniMax M2.5	MiniMax	76,3 %	12 février 2026	Auto-déclaré
18	GLM-5	Zhipu AI	75,9 %	11 février 2026	Auto-déclaré
19	Kimi K2.5	Moonshot AI	74,9 %	27 janvier 2026	Auto-déclaré
20	Claude Sonnet 4.6	Anthropic	74,7 %	17 février 2026	Auto-déclaré

Classement établi sur 51 modèles évalués, dont 29 de grands éditeurs. Score médian de l'ensemble : 62,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BrowseComp indique qu’un agent parvient plus souvent à retrouver une information enfouie sur le web et à la formuler sous une réponse courte conforme à la référence. La métrique d’accuracy rend la lecture des résultats directe, mais la fiabilité doit être interprétée avec prudence, car les scores de la base sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Le classement montre un écart net entre la médiane de l’ensemble, à 62 %, et le meilleur résultat recensé, GPT-5.5 Pro (OpenAI) à 90 %, ce qui suggère une différenciation importante entre agents sur la recherche web persistante. Les limites tiennent à la portée du benchmark, centré sur l’anglais et les réponses courtes, ainsi qu’aux risques habituels de saturation ou de contamination lorsque des jeux publics deviennent connus. BrowseComp renseigne donc surtout la robustesse en navigation web agentique, sans couvrir à lui seul l’ensemble des capacités d’un modèle.

Sources des scores : llm-stats.

BrowseComp

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench