Code & programmation

Codegolf v2.2

Codegolf v2.2 est un benchmark de code golf multimodal consacré à la reproduction d’une cible visuelle avec le code le plus court possible. Créé par Andreas Ebner dans le cadre du projet ClawBattle / beowolve, il s’inscrit dans la lignée d’épreuves de type CSSBattle, où la qualité du…

Le test mesure la capacité d’un modèle à interpréter une consigne visuelle, à produire du HTML/CSS et à optimiser fortement la taille de sa réponse. Il sert donc à observer une compétence située à l’intersection de la perception visuelle, du raisonnement spatial et de la génération de code minimal.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Andreas Ebner (projet ClawBattle / beowolve)
Capacités mesurées	Code golf multimodal : reproduire une cible visuelle avec le code le plus court possible, testant la compréhension visuelle et la génération de code minimal
Modalité	Texte
Type de questions	génération de code (code golf visuel à partir d'une image cible)
Métrique d'évaluation	score de code golf (taille du code + correspondance visuelle au rendu cible, style CSSBattle)
Accès	Public
Langues	code (HTML/CSS), consignes visuelles
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemma 3n E4B Instructed	Google	16,8 %	26 juin 2025	Auto-déclaré
2	Gemma 3n E4B Instructed LiteRT Preview	Google	16,8 %	20 mai 2025	Auto-déclaré
3	Gemma 3n E2B Instructed	Google	11,0 %	26 juin 2025	Auto-déclaré
4	Gemma 3n E2B Instructed LiteRT (Preview)	Google	11,0 %	20 mai 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 13,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Codegolf v2.2 indique qu’un modèle parvient à générer un code court tout en restant proche du rendu cible. La métrique ne récompense donc pas seulement la validité syntaxique, mais aussi l’efficacité et la précision visuelle. Dans la base considérée, les résultats restent bas et resserrés, avec un score médian de 14 % et un meilleur score de 17 % obtenu par Gemma 3n E4B Instructed. Le classement suggère que cette tâche demeure difficile pour les modèles évalués, sans domination nette.

La lecture des scores demande toutefois de la prudence, car ils sont majoritairement auto-déclarés par les éditeurs. L’accès public renforce aussi le risque de contamination future, même si aucun cas précis n’est établi ici. La portée du benchmark reste spécialisée : il évalue le code golf visuel en HTML/CSS, pas la programmation générale. Une éventuelle saturation devra être surveillée si les modèles convergent vers des scores proches du maximum.

Sources des scores : llm-stats.

Codegolf v2.2

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench