CyberGym
CyberGym est un benchmark de cybersécurité conçu par UC Berkeley, avec Dawn Song et ses coauteurs, pour évaluer des agents IA sur des tâches liées à des vulnérabilités logicielles réelles. Il met l’accent sur la capacité à comprendre une description de faille, analyser du code et…
CyberGym est un benchmark de cybersécurité conçu par UC Berkeley, avec Dawn Song et ses coauteurs, pour évaluer des agents IA sur des tâches liées à des vulnérabilités logicielles réelles. Il met l’accent sur la capacité à comprendre une description de faille, analyser du code et produire un PoC permettant de la reproduire.
Son rôle est de tester des compétences agentiques appliquées à la sécurité, au-delà de la simple réponse textuelle. Il sert ainsi à comparer des modèles sur leur aptitude à mener une analyse technique orientée exploitation dans un environnement contrôlé.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | UC Berkeley (Dawn Song et al.) |
| Capacités mesurées | Identification et reproduction de vulnérabilités logicielles réelles, analyse de sécurité par des agents IA |
| Modalité | Texte |
| Type de questions | tâches de cybersécurité agentiques (génération d'un PoC reproduisant une vulnérabilité à partir de sa description et du code) |
| Métrique d'évaluation | taux de succès (reproduction effective de la vulnérabilité) |
| Accès | Public |
| Langues | anglais (descriptions) ; code multi-langage (C/C++, etc.) |
| Taille du jeu | 1 507 vulnérabilités réelles sur 188 projets logiciels |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 83,1 % | — | Auto-déclaré |
| 2 | GPT-5.5 | OpenAI | 81,8 % | 23 avril 2026 | Auto-déclaré |
| 3 | Claude Opus 4.8 | Anthropic | 78,8 % | 28 mai 2026 | Auto-déclaré |
| 4 | Claude Opus 4.6 | Anthropic | 73,8 % | 7 avril 2026 | Auto-déclaré |
| 5 | Claude Opus 4.7 | Anthropic | 73,1 % | 12 mai 2026 | Auto-déclaré |
| 6 | Seed 2.1 Pro | bytedance | 70,2 % | 24 juin 2026 | Auto-déclaré |
| 7 | GLM-5.1 | Zhipu AI | 68,7 % | 7 avril 2026 | Auto-déclaré |
| 8 | Seed 2.1 Turbo | bytedance | 67,0 % | 24 juin 2026 | Auto-déclaré |
| 9 | Kimi K2.5 | Moonshot AI | 41,3 % | 27 janvier 2026 | Auto-déclaré |
Classement établi sur 9 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 73,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CyberGym indique qu’un modèle parvient fréquemment à reproduire effectivement des vulnérabilités à partir des éléments fournis, ce qui signale une capacité opérationnelle en analyse de sécurité, en navigation dans le code et en génération de PoC. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 73 % et un meilleur résultat à 83 % pour Claude Mythos Preview, ce qui suggère un benchmark discriminant mais où les meilleurs systèmes se rapprochent d’une zone de performance élevée. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation indépendante et entièrement reproductible. Les limites portent aussi sur la portée du test : CyberGym mesure la reproduction de vulnérabilités dans un cadre contrôlé, pas l’ensemble des pratiques de cybersécurité. Son accès public peut également accroître le risque de contamination des modèles entraînés ou ajustés après publication.
Sources des scores : llm-stats.