Aider-Polyglot Edit

Aider-Polyglot Edit est un benchmark de programmation multilingue publié en 2024 par Aider-AI, sous l’impulsion de Paul Gauthier. Il évalue la capacité des modèles à modifier du code existant, à corriger leurs erreurs et à résoudre des exercices dans plusieurs langages, avec un retour de…

Aider-Polyglot Edit est un benchmark de programmation multilingue publié en 2024 par Aider-AI, sous l’impulsion de Paul Gauthier. Il évalue la capacité des modèles à modifier du code existant, à corriger leurs erreurs et à résoudre des exercices dans plusieurs langages, avec un retour de tests unitaires après une première tentative.

Construit à partir de problèmes difficiles issus d’Exercism, il sert à tester des compétences proches d’un usage réel d’assistant de développement : comprendre une base de fichiers, produire un correctif exploitable et respecter un format d’édition attendu.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAider-AI (Paul Gauthier)
Capacités mesuréesCapacite a editer des fichiers, corriger ses erreurs et resoudre des problemes de programmation multi-langages
ModalitéTexte
Type de questionsEdition de code / resolution d'exercices de programmation (2 tentatives, retour des tests unitaires)
Métrique d'évaluationTaux de reussite (% de problemes resolus)
AccèsPublic
LicenceExercices issus d'Exercism (licences open source des pistes Exercism)
Languesanglais pour les consignes ; code en C++, Go, Java, JavaScript, Python et Rust
Taille du jeu225 problemes (les plus difficiles d'Exercism) sur 6 langages
Année de publication2024
RessourcesSite / dépôt officiel

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek-V3DeepSeek79,7 %24 mars 2025Auto-déclaré
2Gemini 2.5 ProGoogle72,7 %20 mai 2025Auto-déclaré
3o3-miniOpenAI60,4 %30 janvier 2025Auto-déclaré
4o4-miniOpenAI58,2 %16 avril 2025Auto-déclaré
5Gemini 2.5 FlashGoogle56,7 %20 mai 2025Auto-déclaré
6GPT-4.1OpenAI52,9 %14 avril 2025Auto-déclaré
7GPT-5.4OpenAI44,9 %5 mars 2026Auto-déclaré
8GPT-4.1 miniOpenAI31,6 %14 avril 2025Auto-déclaré
9GPT-4oOpenAI18,2 %27 mars 2025Auto-déclaré
10GPT-4.1 nanoOpenAI6,2 %14 avril 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 54,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Aider-Polyglot Edit indique qu’un modèle parvient fréquemment à transformer un énoncé et des retours de tests en modifications de code correctes, dans plusieurs écosystèmes de programmation. La métrique reflète donc surtout une compétence pratique d’édition et de débogage, plus qu’une simple capacité à générer une réponse textuelle. Le classement disponible dans la base place DeepSeek-V3 en tête avec 80 %, tandis que le score médian de l’ensemble atteint 55 %, ce qui suggère que les meilleurs systèmes dépassent déjà l’échelle de difficulté initialement visée pour recalibrer les évaluations.

  • La rigueur repose sur des tests unitaires et deux tentatives, mais les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante.
  • La portée reste ciblée : six langages, consignes en anglais, exercices de programmation et tâches d’édition de code.
  • Le caractère public et l’origine Exercism peuvent créer un risque d’exposition préalable des exercices, sans permettre d’en mesurer l’ampleur ici.

Sources des scores : llm-stats.