Aider
Aider est un benchmark d’édition de code créé par Aider-AI, sous l’impulsion de Paul Gauthier. Il évalue la capacité d’un modèle à transformer une consigne de programmation en langage naturel en code Python exécutable, puis à intégrer ce code dans une base existante.
Aider est un benchmark d’édition de code créé par Aider-AI, sous l’impulsion de Paul Gauthier. Il évalue la capacité d’un modèle à transformer une consigne de programmation en langage naturel en code Python exécutable, puis à intégrer ce code dans une base existante.
Le test s’appuie sur des exercices issus du dépôt Python d’Exercism et vérifie le résultat par tests unitaires. Il sert ainsi à mesurer une compétence pratique de bout en bout, proche d’un usage d’assistant de développement, au-delà de la simple génération de fragments de code.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Aider-AI (Paul Gauthier) |
| Capacités mesurées | Capacité à traduire une demande de codage en langage naturel en code Python exécutable et à l'intégrer dans du code existant |
| Modalité | Texte |
| Type de questions | édition/génération de code |
| Métrique d'évaluation | taux de réussite (% d'exercices dont tous les tests unitaires passent) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | Python (consignes en anglais) |
| Taille du jeu | 133 exercices (dépôt Python d'Exercism) |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek-V2.5 | DeepSeek | 72,2 % | 8 mai 2024 | Auto-déclaré |
| 2 | Qwen3 235B A22B | Qwen | 61,8 % | 25 juillet 2025 | Auto-déclaré |
| 3 | Qwen2.5-Coder 7B Instruct | Qwen | 55,6 % | 19 septembre 2024 | Auto-déclaré |
| 4 | Qwen3 32B | Qwen | 50,2 % | 29 avril 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 58,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Aider indique qu’un modèle parvient fréquemment à produire des modifications de code correctes, enregistrables et compatibles avec les tests unitaires attendus. La métrique est concrète, puisqu’elle repose sur la réussite complète des tests, mais l’interprétation doit rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante.
- La saturation ne semble pas atteinte dans l’échantillon disponible, le meilleur score restant à 72 % et la médiane à 59 %.
- La contamination est un risque possible, les exercices provenant d’un dépôt public d’Exercism.
- La portée reste centrée sur l’édition et la génération de code Python à partir de consignes en anglais, même si une variante Polyglot existe pour d’autres langages.
Le classement met en avant DeepSeek-V2.5 comme modèle le plus performant dans la base, devant un ensemble limité à quatre modèles évalués.
Sources des scores : llm-stats.