Code & programmation

Aider-Polyglot

Aider-Polyglot est un benchmark de programmation créé par Aider, le projet de Paul Gauthier, pour évaluer des modèles d’IA sur des exercices Exercism exigeants. Il se concentre sur la génération de code, l’édition de fichiers et la correction d’erreurs à partir de retours de tests…

Son intérêt est de rapprocher l’évaluation d’un flux de travail de développement réel : un modèle produit une solution, reçoit un retour d’échec si les tests ne passent pas, puis peut modifier son code. Le benchmark mesure ainsi la résolution initiale et la capacité d’itération.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Aider (Paul Gauthier)
Capacités mesurées	génération de code, édition de fichiers, correction d'erreurs sur retour de tests, multi-langages
Modalité	Texte
Type de questions	exercices de programmation (Exercism) avec édition de fichiers; 2 essais avec retour des erreurs de tests unitaires
Métrique d'évaluation	taux de réussite (% d'exercices résolus, tests passants)
Accès	Public
Langues	C++, Go, Java, JavaScript, Python, Rust
Taille du jeu	225 exercices Exercism (les plus difficiles, résolus par ≤3 modèles), 6 langages
Année de publication	2024
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5	OpenAI	88,0 %	7 août 2025	Auto-déclaré
2	Gemini 2.5 Pro Preview 06-05	Google	82,2 %	5 juin 2025	Auto-déclaré
3	o3	OpenAI	81,3 %	16 avril 2025	Auto-déclaré
4	Gemini 2.5 Pro	Google	76,5 %	20 mai 2025	Auto-déclaré
5	DeepSeek-V3.2-Exp	DeepSeek	74,5 %	29 septembre 2025	Auto-déclaré
6	DeepSeek-R1-0528	DeepSeek	71,6 %	28 mai 2025	Auto-déclaré
7	o4-mini	OpenAI	68,9 %	16 avril 2025	Auto-déclaré
8	DeepSeek-V3.1	DeepSeek	68,4 %	10 janvier 2025	Auto-déclaré
9	o3-mini	OpenAI	66,7 %	30 janvier 2025	Auto-déclaré
10	Gemini 2.5 Flash	Google	61,9 %	20 mai 2025	Auto-déclaré
11	Qwen3-Coder 480B A35B Instruct	Qwen	61,8 %	31 janvier 2025	Auto-déclaré
12	Kimi K2 Instruct	Moonshot AI	60,0 %	11 juillet 2025	Auto-déclaré
13	Kimi K2-Instruct-0905	Moonshot AI	60,0 %	5 septembre 2025	Auto-déclaré
14	Qwen3-235B-A22B-Instruct-2507	Qwen	57,3 %	22 juillet 2025	Auto-déclaré
15	GPT-4.1	OpenAI	51,6 %	14 avril 2025	Auto-déclaré
16	Qwen3-Next-80B-A3B-Instruct	Qwen	49,8 %	10 septembre 2025	Auto-déclaré
17	DeepSeek-V3	DeepSeek	49,6 %	24 mars 2025	Auto-déclaré
18	Magistral Medium	Mistral AI	47,1 %	10 juin 2025	Auto-déclaré
19	GPT-4.1 mini	OpenAI	34,7 %	14 avril 2025	Auto-déclaré
20	GPT-4o	OpenAI	30,7 %	27 mars 2025	Auto-déclaré

Classement établi sur 22 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 60,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Aider-Polyglot indique qu’un modèle parvient à résoudre une forte proportion d’exercices de programmation difficiles, tout en exploitant efficacement les retours de tests pour corriger son code. Le classement met en évidence les modèles les plus robustes dans un contexte multi-langages, avec GPT-5 en tête parmi les modèles suivis dans la base. La métrique est directe, puisqu’elle repose sur la réussite des tests, mais l’interprétation doit rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante. Le benchmark présente aussi des limites classiques : un jeu public peut être exposé à la contamination, et la sélection d’exercices Exercism ne couvre pas toute la diversité du développement logiciel, notamment les grands dépôts, les dépendances complexes ou la maintenance longue durée. La médiane élevée suggère enfin une possible saturation progressive pour les meilleurs modèles, même si les exercices retenus restent conçus pour être difficiles.

Sources des scores : llm-stats.

Aider-Polyglot

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench