Aider-Polyglot
Aider-Polyglot est un benchmark de programmation créé par Aider, le projet de Paul Gauthier, pour évaluer des modèles d’IA sur des exercices Exercism exigeants. Il se concentre sur la génération de code, l’édition de fichiers et la correction d’erreurs à partir de retours de tests…
Aider-Polyglot est un benchmark de programmation créé par Aider, le projet de Paul Gauthier, pour évaluer des modèles d’IA sur des exercices Exercism exigeants. Il se concentre sur la génération de code, l’édition de fichiers et la correction d’erreurs à partir de retours de tests unitaires.
Son intérêt est de rapprocher l’évaluation d’un flux de travail de développement réel : un modèle produit une solution, reçoit un retour d’échec si les tests ne passent pas, puis peut modifier son code. Le benchmark mesure ainsi la résolution initiale et la capacité d’itération.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Aider (Paul Gauthier) |
| Capacités mesurées | génération de code, édition de fichiers, correction d'erreurs sur retour de tests, multi-langages |
| Modalité | Texte |
| Type de questions | exercices de programmation (Exercism) avec édition de fichiers; 2 essais avec retour des erreurs de tests unitaires |
| Métrique d'évaluation | taux de réussite (% d'exercices résolus, tests passants) |
| Accès | Public |
| Langues | C++, Go, Java, JavaScript, Python, Rust |
| Taille du jeu | 225 exercices Exercism (les plus difficiles, résolus par ≤3 modèles), 6 langages |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5 | OpenAI | 88,0 % | 7 août 2025 | Auto-déclaré |
| 2 | Gemini 2.5 Pro Preview 06-05 | 82,2 % | 5 juin 2025 | Auto-déclaré | |
| 3 | o3 | OpenAI | 81,3 % | 16 avril 2025 | Auto-déclaré |
| 4 | Gemini 2.5 Pro | 76,5 % | 20 mai 2025 | Auto-déclaré | |
| 5 | DeepSeek-V3.2-Exp | DeepSeek | 74,5 % | 29 septembre 2025 | Auto-déclaré |
| 6 | DeepSeek-R1-0528 | DeepSeek | 71,6 % | 28 mai 2025 | Auto-déclaré |
| 7 | o4-mini | OpenAI | 68,9 % | 16 avril 2025 | Auto-déclaré |
| 8 | DeepSeek-V3.1 | DeepSeek | 68,4 % | 10 janvier 2025 | Auto-déclaré |
| 9 | o3-mini | OpenAI | 66,7 % | 30 janvier 2025 | Auto-déclaré |
| 10 | Gemini 2.5 Flash | 61,9 % | 20 mai 2025 | Auto-déclaré | |
| 11 | Qwen3-Coder 480B A35B Instruct | Qwen | 61,8 % | 31 janvier 2025 | Auto-déclaré |
| 12 | Kimi K2 Instruct | Moonshot AI | 60,0 % | 11 juillet 2025 | Auto-déclaré |
| 13 | Kimi K2-Instruct-0905 | Moonshot AI | 60,0 % | 5 septembre 2025 | Auto-déclaré |
| 14 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 57,3 % | 22 juillet 2025 | Auto-déclaré |
| 15 | GPT-4.1 | OpenAI | 51,6 % | 14 avril 2025 | Auto-déclaré |
| 16 | Qwen3-Next-80B-A3B-Instruct | Qwen | 49,8 % | 10 septembre 2025 | Auto-déclaré |
| 17 | DeepSeek-V3 | DeepSeek | 49,6 % | 24 mars 2025 | Auto-déclaré |
| 18 | Magistral Medium | Mistral AI | 47,1 % | 10 juin 2025 | Auto-déclaré |
| 19 | GPT-4.1 mini | OpenAI | 34,7 % | 14 avril 2025 | Auto-déclaré |
| 20 | GPT-4o | OpenAI | 30,7 % | 27 mars 2025 | Auto-déclaré |
Classement établi sur 22 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 60,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Aider-Polyglot indique qu’un modèle parvient à résoudre une forte proportion d’exercices de programmation difficiles, tout en exploitant efficacement les retours de tests pour corriger son code. Le classement met en évidence les modèles les plus robustes dans un contexte multi-langages, avec GPT-5 en tête parmi les modèles suivis dans la base. La métrique est directe, puisqu’elle repose sur la réussite des tests, mais l’interprétation doit rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante. Le benchmark présente aussi des limites classiques : un jeu public peut être exposé à la contamination, et la sélection d’exercices Exercism ne couvre pas toute la diversité du développement logiciel, notamment les grands dépôts, les dépendances complexes ou la maintenance longue durée. La médiane élevée suggère enfin une possible saturation progressive pour les meilleurs modèles, même si les exercices retenus restent conçus pour être difficiles.
Sources des scores : llm-stats.