Aider

Aider est un benchmark d’édition de code créé par Aider-AI, sous l’impulsion de Paul Gauthier. Il évalue la capacité d’un modèle à transformer une consigne de programmation en langage naturel en code Python exécutable, puis à intégrer ce code dans une base existante.

Aider est un benchmark d’édition de code créé par Aider-AI, sous l’impulsion de Paul Gauthier. Il évalue la capacité d’un modèle à transformer une consigne de programmation en langage naturel en code Python exécutable, puis à intégrer ce code dans une base existante.

Le test s’appuie sur des exercices issus du dépôt Python d’Exercism et vérifie le résultat par tests unitaires. Il sert ainsi à mesurer une compétence pratique de bout en bout, proche d’un usage d’assistant de développement, au-delà de la simple génération de fragments de code.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAider-AI (Paul Gauthier)
Capacités mesuréesCapacité à traduire une demande de codage en langage naturel en code Python exécutable et à l'intégrer dans du code existant
ModalitéTexte
Type de questionsédition/génération de code
Métrique d'évaluationtaux de réussite (% d'exercices dont tous les tests unitaires passent)
AccèsPublic
LicenceApache-2.0
LanguesPython (consignes en anglais)
Taille du jeu133 exercices (dépôt Python d'Exercism)
Année de publication2023
RessourcesSite / dépôt officiel

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek-V2.5DeepSeek72,2 %8 mai 2024Auto-déclaré
2Qwen3 235B A22BQwen61,8 %25 juillet 2025Auto-déclaré
3Qwen2.5-Coder 7B InstructQwen55,6 %19 septembre 2024Auto-déclaré
4Qwen3 32BQwen50,2 %29 avril 2025Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 58,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Aider indique qu’un modèle parvient fréquemment à produire des modifications de code correctes, enregistrables et compatibles avec les tests unitaires attendus. La métrique est concrète, puisqu’elle repose sur la réussite complète des tests, mais l’interprétation doit rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante.

  • La saturation ne semble pas atteinte dans l’échantillon disponible, le meilleur score restant à 72 % et la médiane à 59 %.
  • La contamination est un risque possible, les exercices provenant d’un dépôt public d’Exercism.
  • La portée reste centrée sur l’édition et la génération de code Python à partir de consignes en anglais, même si une variante Polyglot existe pour d’autres langages.

Le classement met en avant DeepSeek-V2.5 comme modèle le plus performant dans la base, devant un ensemble limité à quatre modèles évalués.


Sources des scores : llm-stats.