Code & programmation

Aider

Aider est un benchmark d’édition de code créé par Aider-AI, sous l’impulsion de Paul Gauthier. Il évalue la capacité d’un modèle à transformer une consigne de programmation en langage naturel en code Python exécutable, puis à intégrer ce code dans une base existante.

Le test s’appuie sur des exercices issus du dépôt Python d’Exercism et vérifie le résultat par tests unitaires. Il sert ainsi à mesurer une compétence pratique de bout en bout, proche d’un usage d’assistant de développement, au-delà de la simple génération de fragments de code.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Aider-AI (Paul Gauthier)
Capacités mesurées	Capacité à traduire une demande de codage en langage naturel en code Python exécutable et à l'intégrer dans du code existant
Modalité	Texte
Type de questions	édition/génération de code
Métrique d'évaluation	taux de réussite (% d'exercices dont tous les tests unitaires passent)
Accès	Public
Licence	Apache-2.0
Langues	Python (consignes en anglais)
Taille du jeu	133 exercices (dépôt Python d'Exercism)
Année de publication	2023
Ressources	Site / dépôt officiel

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek-V2.5	DeepSeek	72,2 %	8 mai 2024	Auto-déclaré
2	Qwen3 235B A22B	Qwen	61,8 %	25 juillet 2025	Auto-déclaré
3	Qwen2.5-Coder 7B Instruct	Qwen	55,6 %	19 septembre 2024	Auto-déclaré
4	Qwen3 32B	Qwen	50,2 %	29 avril 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 58,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Aider indique qu’un modèle parvient fréquemment à produire des modifications de code correctes, enregistrables et compatibles avec les tests unitaires attendus. La métrique est concrète, puisqu’elle repose sur la réussite complète des tests, mais l’interprétation doit rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante.

La saturation ne semble pas atteinte dans l’échantillon disponible, le meilleur score restant à 72 % et la médiane à 59 %.
La contamination est un risque possible, les exercices provenant d’un dépôt public d’Exercism.
La portée reste centrée sur l’édition et la génération de code Python à partir de consignes en anglais, même si une variante Polyglot existe pour d’autres langages.

Le classement met en avant DeepSeek-V2.5 comme modèle le plus performant dans la base, devant un ensemble limité à quatre modèles évalués.

Sources des scores : llm-stats.

Aider

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench