CyberGym

CyberGym est un benchmark de cybersécurité conçu par UC Berkeley, avec Dawn Song et ses coauteurs, pour évaluer des agents IA sur des tâches liées à des vulnérabilités logicielles réelles. Il met l’accent sur la capacité à comprendre une description de faille, analyser du code et…

CyberGym est un benchmark de cybersécurité conçu par UC Berkeley, avec Dawn Song et ses coauteurs, pour évaluer des agents IA sur des tâches liées à des vulnérabilités logicielles réelles. Il met l’accent sur la capacité à comprendre une description de faille, analyser du code et produire un PoC permettant de la reproduire.

Son rôle est de tester des compétences agentiques appliquées à la sécurité, au-delà de la simple réponse textuelle. Il sert ainsi à comparer des modèles sur leur aptitude à mener une analyse technique orientée exploitation dans un environnement contrôlé.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkUC Berkeley (Dawn Song et al.)
Capacités mesuréesIdentification et reproduction de vulnérabilités logicielles réelles, analyse de sécurité par des agents IA
ModalitéTexte
Type de questionstâches de cybersécurité agentiques (génération d'un PoC reproduisant une vulnérabilité à partir de sa description et du code)
Métrique d'évaluationtaux de succès (reproduction effective de la vulnérabilité)
AccèsPublic
Languesanglais (descriptions) ; code multi-langage (C/C++, etc.)
Taille du jeu1 507 vulnérabilités réelles sur 188 projets logiciels
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Claude Mythos PreviewAnthropic83,1 %Auto-déclaré
2GPT-5.5OpenAI81,8 %23 avril 2026Auto-déclaré
3Claude Opus 4.8Anthropic78,8 %28 mai 2026Auto-déclaré
4Claude Opus 4.6Anthropic73,8 %7 avril 2026Auto-déclaré
5Claude Opus 4.7Anthropic73,1 %12 mai 2026Auto-déclaré
6Seed 2.1 Probytedance70,2 %24 juin 2026Auto-déclaré
7GLM-5.1Zhipu AI68,7 %7 avril 2026Auto-déclaré
8Seed 2.1 Turbobytedance67,0 %24 juin 2026Auto-déclaré
9Kimi K2.5Moonshot AI41,3 %27 janvier 2026Auto-déclaré

Classement établi sur 9 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 73,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CyberGym indique qu’un modèle parvient fréquemment à reproduire effectivement des vulnérabilités à partir des éléments fournis, ce qui signale une capacité opérationnelle en analyse de sécurité, en navigation dans le code et en génération de PoC. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 73 % et un meilleur résultat à 83 % pour Claude Mythos Preview, ce qui suggère un benchmark discriminant mais où les meilleurs systèmes se rapprochent d’une zone de performance élevée. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation indépendante et entièrement reproductible. Les limites portent aussi sur la portée du test : CyberGym mesure la reproduction de vulnérabilités dans un cadre contrôlé, pas l’ensemble des pratiques de cybersécurité. Son accès public peut également accroître le risque de contamination des modèles entraînés ou ajustés après publication.


Sources des scores : llm-stats.