CodeForces

CodeForces est un benchmark de programmation compétitive fondé sur des problèmes issus de la plateforme Codeforces. Il évalue la capacité des modèles de langage à comprendre des énoncés algorithmiques exigeants, à concevoir une solution efficace et à produire du code exécutable.

CodeForces est un benchmark de programmation compétitive fondé sur des problèmes issus de la plateforme Codeforces. Il évalue la capacité des modèles de langage à comprendre des énoncés algorithmiques exigeants, à concevoir une solution efficace et à produire du code exécutable.

Son intérêt tient à la combinaison entre raisonnement formel, choix d’algorithmes et validation par tests. Les tâches couvrent notamment la programmation dynamique, les graphes, les structures de données et les problèmes mathématiques, ce qui en fait un indicateur utile pour mesurer la génération de code algorithmique.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkPlateforme Codeforces (programmation compétitive)
Capacités mesuréesCompréhension d'énoncés complexes, conception d'algorithmes efficaces (programmation dynamique, graphes, structures de données) et génération de code correct.
ModalitéTexte
Type de questionsGénération de code algorithmique (problèmes de concours, difficulté ~800-2400)
Métrique d'évaluationTaux de réussite des tests / rating Elo (selon l'implémentation)
AccèsPublic
Licencepropriétaire
LanguesÉnoncés en anglais ; code (C++, Python, etc.)
Taille du jeuVariable selon l'implémentation (ex. CodeElo : 387 problèmes)
RessourcesSite / dépôt officiel

Classement des modèles (top 16)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek-V4-Flash-MaxDeepSeek100,0 %23 avril 2026Auto-déclaré
2DeepSeek-V4-Pro-MaxDeepSeek100,0 %23 avril 2026Auto-déclaré
3DeepSeek-V3.2-SpecialeDeepSeek90,0 %1 décembre 2025Auto-déclaré
4Qwen3.5-122B-A10BQwen85,1 %24 février 2026Auto-déclaré
5Qwen3.5-35B-A3BQwen82,2 %24 février 2026Auto-déclaré
6GPT OSS 120BOpenAI82,1 %5 août 2025Auto-déclaré
7Qwen3.5-27BQwen80,7 %24 février 2026Auto-déclaré
8DeepSeek-V3.2DeepSeek79,5 %1 décembre 2025Auto-déclaré
9DeepSeek-V3.2 (Thinking)DeepSeek79,5 %1 décembre 2025Auto-déclaré
10GPT OSS 20BOpenAI74,3 %5 août 2025Auto-déclaré
11DeepSeek-V3.2-ExpDeepSeek70,7 %29 septembre 2025Auto-déclaré
12DeepSeek-V3.1DeepSeek69,7 %10 janvier 2025Auto-déclaré
13Qwen3 32BQwen65,9 %29 avril 2025Auto-déclaré
14DeepSeek-R1-0528DeepSeek64,3 %28 mai 2025Auto-déclaré
15Gemma 4 12BGoogle55,3 %23 mai 2026Auto-déclaré
16DiffusionGemma 26B-A4BGoogle47,6 %10 juin 2026Auto-déclaré

Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 79,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CodeForces indique qu’un modèle parvient à transformer un énoncé de concours en programme correct, avec une complexité adaptée aux contraintes implicites du problème. La mesure peut reposer sur le taux de réussite aux tests ou sur un rating Elo, selon l’implémentation, ce qui impose de comparer les résultats avec prudence. La rigueur vient de l’évaluation par soumission et tests standardisés, mais la fiabilité globale reste limitée par le fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs.

Le classement montre un niveau déjà élevé, avec une médiane à 80 % parmi les modèles recensés et un meilleur résultat à 100 % pour DeepSeek-V4-Flash-Max. Cette concentration suggère un risque de saturation sur certaines configurations. Les problèmes étant publics et issus de Codeforces, la contamination des données d’entraînement constitue aussi une limite importante. Enfin, CodeForces mesure surtout la résolution algorithmique de concours, pas la maintenance logicielle, l’intégration de projets ou le débogage en contexte réel.


Sources des scores : llm-stats.