Code & programmation

Aider-Polyglot Edit

Aider-Polyglot Edit est un benchmark de programmation multilingue publié en 2024 par Aider-AI, sous l’impulsion de Paul Gauthier. Il évalue la capacité des modèles à modifier du code existant, à corriger leurs erreurs et à résoudre des exercices dans plusieurs langages, avec un retour de…

Construit à partir de problèmes difficiles issus d’Exercism, il sert à tester des compétences proches d’un usage réel d’assistant de développement : comprendre une base de fichiers, produire un correctif exploitable et respecter un format d’édition attendu.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Aider-AI (Paul Gauthier)
Capacités mesurées	Capacite a editer des fichiers, corriger ses erreurs et resoudre des problemes de programmation multi-langages
Modalité	Texte
Type de questions	Edition de code / resolution d'exercices de programmation (2 tentatives, retour des tests unitaires)
Métrique d'évaluation	Taux de reussite (% de problemes resolus)
Accès	Public
Licence	Exercices issus d'Exercism (licences open source des pistes Exercism)
Langues	anglais pour les consignes ; code en C++, Go, Java, JavaScript, Python et Rust
Taille du jeu	225 problemes (les plus difficiles d'Exercism) sur 6 langages
Année de publication	2024
Ressources	Site / dépôt officiel

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek-V3	DeepSeek	79,7 %	24 mars 2025	Auto-déclaré
2	Gemini 2.5 Pro	Google	72,7 %	20 mai 2025	Auto-déclaré
3	o3-mini	OpenAI	60,4 %	30 janvier 2025	Auto-déclaré
4	o4-mini	OpenAI	58,2 %	16 avril 2025	Auto-déclaré
5	Gemini 2.5 Flash	Google	56,7 %	20 mai 2025	Auto-déclaré
6	GPT-4.1	OpenAI	52,9 %	14 avril 2025	Auto-déclaré
7	GPT-5.4	OpenAI	44,9 %	5 mars 2026	Auto-déclaré
8	GPT-4.1 mini	OpenAI	31,6 %	14 avril 2025	Auto-déclaré
9	GPT-4o	OpenAI	18,2 %	27 mars 2025	Auto-déclaré
10	GPT-4.1 nano	OpenAI	6,2 %	14 avril 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 54,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Aider-Polyglot Edit indique qu’un modèle parvient fréquemment à transformer un énoncé et des retours de tests en modifications de code correctes, dans plusieurs écosystèmes de programmation. La métrique reflète donc surtout une compétence pratique d’édition et de débogage, plus qu’une simple capacité à générer une réponse textuelle. Le classement disponible dans la base place DeepSeek-V3 en tête avec 80 %, tandis que le score médian de l’ensemble atteint 55 %, ce qui suggère que les meilleurs systèmes dépassent déjà l’échelle de difficulté initialement visée pour recalibrer les évaluations.

La rigueur repose sur des tests unitaires et deux tentatives, mais les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante.
La portée reste ciblée : six langages, consignes en anglais, exercices de programmation et tâches d’édition de code.
Le caractère public et l’origine Exercism peuvent créer un risque d’exposition préalable des exercices, sans permettre d’en mesurer l’ampleur ici.

Sources des scores : llm-stats.

Aider-Polyglot Edit

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench