Aider-Polyglot

Aider-Polyglot est un benchmark de programmation créé par Aider, le projet de Paul Gauthier, pour évaluer des modèles d’IA sur des exercices Exercism exigeants. Il se concentre sur la génération de code, l’édition de fichiers et la correction d’erreurs à partir de retours de tests…

Aider-Polyglot est un benchmark de programmation créé par Aider, le projet de Paul Gauthier, pour évaluer des modèles d’IA sur des exercices Exercism exigeants. Il se concentre sur la génération de code, l’édition de fichiers et la correction d’erreurs à partir de retours de tests unitaires.

Son intérêt est de rapprocher l’évaluation d’un flux de travail de développement réel : un modèle produit une solution, reçoit un retour d’échec si les tests ne passent pas, puis peut modifier son code. Le benchmark mesure ainsi la résolution initiale et la capacité d’itération.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAider (Paul Gauthier)
Capacités mesuréesgénération de code, édition de fichiers, correction d'erreurs sur retour de tests, multi-langages
ModalitéTexte
Type de questionsexercices de programmation (Exercism) avec édition de fichiers; 2 essais avec retour des erreurs de tests unitaires
Métrique d'évaluationtaux de réussite (% d'exercices résolus, tests passants)
AccèsPublic
LanguesC++, Go, Java, JavaScript, Python, Rust
Taille du jeu225 exercices Exercism (les plus difficiles, résolus par ≤3 modèles), 6 langages
Année de publication2024
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5OpenAI88,0 %7 août 2025Auto-déclaré
2Gemini 2.5 Pro Preview 06-05Google82,2 %5 juin 2025Auto-déclaré
3o3OpenAI81,3 %16 avril 2025Auto-déclaré
4Gemini 2.5 ProGoogle76,5 %20 mai 2025Auto-déclaré
5DeepSeek-V3.2-ExpDeepSeek74,5 %29 septembre 2025Auto-déclaré
6DeepSeek-R1-0528DeepSeek71,6 %28 mai 2025Auto-déclaré
7o4-miniOpenAI68,9 %16 avril 2025Auto-déclaré
8DeepSeek-V3.1DeepSeek68,4 %10 janvier 2025Auto-déclaré
9o3-miniOpenAI66,7 %30 janvier 2025Auto-déclaré
10Gemini 2.5 FlashGoogle61,9 %20 mai 2025Auto-déclaré
11Qwen3-Coder 480B A35B InstructQwen61,8 %31 janvier 2025Auto-déclaré
12Kimi K2 InstructMoonshot AI60,0 %11 juillet 2025Auto-déclaré
13Kimi K2-Instruct-0905Moonshot AI60,0 %5 septembre 2025Auto-déclaré
14Qwen3-235B-A22B-Instruct-2507Qwen57,3 %22 juillet 2025Auto-déclaré
15GPT-4.1OpenAI51,6 %14 avril 2025Auto-déclaré
16Qwen3-Next-80B-A3B-InstructQwen49,8 %10 septembre 2025Auto-déclaré
17DeepSeek-V3DeepSeek49,6 %24 mars 2025Auto-déclaré
18Magistral MediumMistral AI47,1 %10 juin 2025Auto-déclaré
19GPT-4.1 miniOpenAI34,7 %14 avril 2025Auto-déclaré
20GPT-4oOpenAI30,7 %27 mars 2025Auto-déclaré

Classement établi sur 22 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 60,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Aider-Polyglot indique qu’un modèle parvient à résoudre une forte proportion d’exercices de programmation difficiles, tout en exploitant efficacement les retours de tests pour corriger son code. Le classement met en évidence les modèles les plus robustes dans un contexte multi-langages, avec GPT-5 en tête parmi les modèles suivis dans la base. La métrique est directe, puisqu’elle repose sur la réussite des tests, mais l’interprétation doit rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante. Le benchmark présente aussi des limites classiques : un jeu public peut être exposé à la contamination, et la sélection d’exercices Exercism ne couvre pas toute la diversité du développement logiciel, notamment les grands dépôts, les dépendances complexes ou la maintenance longue durée. La médiane élevée suggère enfin une possible saturation progressive pour les meilleurs modèles, même si les exercices retenus restent conçus pour être difficiles.


Sources des scores : llm-stats.