Code & programmation

CyberGym

CyberGym est un benchmark de cybersécurité conçu par UC Berkeley, avec Dawn Song et ses coauteurs, pour évaluer des agents IA sur des tâches liées à des vulnérabilités logicielles réelles. Il met l’accent sur la capacité à comprendre une description de faille, analyser du code et…

Son rôle est de tester des compétences agentiques appliquées à la sécurité, au-delà de la simple réponse textuelle. Il sert ainsi à comparer des modèles sur leur aptitude à mener une analyse technique orientée exploitation dans un environnement contrôlé.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	UC Berkeley (Dawn Song et al.)
Capacités mesurées	Identification et reproduction de vulnérabilités logicielles réelles, analyse de sécurité par des agents IA
Modalité	Texte
Type de questions	tâches de cybersécurité agentiques (génération d'un PoC reproduisant une vulnérabilité à partir de sa description et du code)
Métrique d'évaluation	taux de succès (reproduction effective de la vulnérabilité)
Accès	Public
Langues	anglais (descriptions) ; code multi-langage (C/C++, etc.)
Taille du jeu	1 507 vulnérabilités réelles sur 188 projets logiciels
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Mythos Preview	Anthropic	83,1 %	—	Auto-déclaré
2	GPT-5.5	OpenAI	81,8 %	23 avril 2026	Auto-déclaré
3	Claude Opus 4.8	Anthropic	78,8 %	28 mai 2026	Auto-déclaré
4	Claude Opus 4.6	Anthropic	73,8 %	7 avril 2026	Auto-déclaré
5	Claude Opus 4.7	Anthropic	73,1 %	12 mai 2026	Auto-déclaré
6	Seed 2.1 Pro	bytedance	70,2 %	24 juin 2026	Auto-déclaré
7	GLM-5.1	Zhipu AI	68,7 %	7 avril 2026	Auto-déclaré
8	Seed 2.1 Turbo	bytedance	67,0 %	24 juin 2026	Auto-déclaré
9	Kimi K2.5	Moonshot AI	41,3 %	27 janvier 2026	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 73,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CyberGym indique qu’un modèle parvient fréquemment à reproduire effectivement des vulnérabilités à partir des éléments fournis, ce qui signale une capacité opérationnelle en analyse de sécurité, en navigation dans le code et en génération de PoC. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 73 % et un meilleur résultat à 83 % pour Claude Mythos Preview, ce qui suggère un benchmark discriminant mais où les meilleurs systèmes se rapprochent d’une zone de performance élevée. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation indépendante et entièrement reproductible. Les limites portent aussi sur la portée du test : CyberGym mesure la reproduction de vulnérabilités dans un cadre contrôlé, pas l’ensemble des pratiques de cybersécurité. Son accès public peut également accroître le risque de contamination des modèles entraînés ou ajustés après publication.

Sources des scores : llm-stats.

CyberGym

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench