Codegolf v2.2
Codegolf v2.2 est un benchmark de code golf multimodal consacré à la reproduction d’une cible visuelle avec le code le plus court possible. Créé par Andreas Ebner dans le cadre du projet ClawBattle / beowolve, il s’inscrit dans la lignée d’épreuves de type CSSBattle, où la qualité du…
Codegolf v2.2 est un benchmark de code golf multimodal consacré à la reproduction d’une cible visuelle avec le code le plus court possible. Créé par Andreas Ebner dans le cadre du projet ClawBattle / beowolve, il s’inscrit dans la lignée d’épreuves de type CSSBattle, où la qualité du rendu et la concision du code sont évaluées ensemble.
Le test mesure la capacité d’un modèle à interpréter une consigne visuelle, à produire du HTML/CSS et à optimiser fortement la taille de sa réponse. Il sert donc à observer une compétence située à l’intersection de la perception visuelle, du raisonnement spatial et de la génération de code minimal.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Andreas Ebner (projet ClawBattle / beowolve) |
| Capacités mesurées | Code golf multimodal : reproduire une cible visuelle avec le code le plus court possible, testant la compréhension visuelle et la génération de code minimal |
| Modalité | Texte |
| Type de questions | génération de code (code golf visuel à partir d'une image cible) |
| Métrique d'évaluation | score de code golf (taille du code + correspondance visuelle au rendu cible, style CSSBattle) |
| Accès | Public |
| Langues | code (HTML/CSS), consignes visuelles |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemma 3n E4B Instructed | 16,8 % | 26 juin 2025 | Auto-déclaré | |
| 2 | Gemma 3n E4B Instructed LiteRT Preview | 16,8 % | 20 mai 2025 | Auto-déclaré | |
| 3 | Gemma 3n E2B Instructed | 11,0 % | 26 juin 2025 | Auto-déclaré | |
| 4 | Gemma 3n E2B Instructed LiteRT (Preview) | 11,0 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 13,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Codegolf v2.2 indique qu’un modèle parvient à générer un code court tout en restant proche du rendu cible. La métrique ne récompense donc pas seulement la validité syntaxique, mais aussi l’efficacité et la précision visuelle. Dans la base considérée, les résultats restent bas et resserrés, avec un score médian de 14 % et un meilleur score de 17 % obtenu par Gemma 3n E4B Instructed. Le classement suggère que cette tâche demeure difficile pour les modèles évalués, sans domination nette.
La lecture des scores demande toutefois de la prudence, car ils sont majoritairement auto-déclarés par les éditeurs. L’accès public renforce aussi le risque de contamination future, même si aucun cas précis n’est établi ici. La portée du benchmark reste spécialisée : il évalue le code golf visuel en HTML/CSS, pas la programmation générale. Une éventuelle saturation devra être surveillée si les modèles convergent vers des scores proches du maximum.
Sources des scores : llm-stats.