CodeForces
CodeForces est un benchmark de programmation compétitive fondé sur des problèmes issus de la plateforme Codeforces. Il évalue la capacité des modèles de langage à comprendre des énoncés algorithmiques exigeants, à concevoir une solution efficace et à produire du code exécutable.
CodeForces est un benchmark de programmation compétitive fondé sur des problèmes issus de la plateforme Codeforces. Il évalue la capacité des modèles de langage à comprendre des énoncés algorithmiques exigeants, à concevoir une solution efficace et à produire du code exécutable.
Son intérêt tient à la combinaison entre raisonnement formel, choix d’algorithmes et validation par tests. Les tâches couvrent notamment la programmation dynamique, les graphes, les structures de données et les problèmes mathématiques, ce qui en fait un indicateur utile pour mesurer la génération de code algorithmique.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Plateforme Codeforces (programmation compétitive) |
| Capacités mesurées | Compréhension d'énoncés complexes, conception d'algorithmes efficaces (programmation dynamique, graphes, structures de données) et génération de code correct. |
| Modalité | Texte |
| Type de questions | Génération de code algorithmique (problèmes de concours, difficulté ~800-2400) |
| Métrique d'évaluation | Taux de réussite des tests / rating Elo (selon l'implémentation) |
| Accès | Public |
| Licence | propriétaire |
| Langues | Énoncés en anglais ; code (C++, Python, etc.) |
| Taille du jeu | Variable selon l'implémentation (ex. CodeElo : 387 problèmes) |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 16)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash-Max | DeepSeek | 100,0 % | 23 avril 2026 | Auto-déclaré |
| 2 | DeepSeek-V4-Pro-Max | DeepSeek | 100,0 % | 23 avril 2026 | Auto-déclaré |
| 3 | DeepSeek-V3.2-Speciale | DeepSeek | 90,0 % | 1 décembre 2025 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 85,1 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3.5-35B-A3B | Qwen | 82,2 % | 24 février 2026 | Auto-déclaré |
| 6 | GPT OSS 120B | OpenAI | 82,1 % | 5 août 2025 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 80,7 % | 24 février 2026 | Auto-déclaré |
| 8 | DeepSeek-V3.2 | DeepSeek | 79,5 % | 1 décembre 2025 | Auto-déclaré |
| 9 | DeepSeek-V3.2 (Thinking) | DeepSeek | 79,5 % | 1 décembre 2025 | Auto-déclaré |
| 10 | GPT OSS 20B | OpenAI | 74,3 % | 5 août 2025 | Auto-déclaré |
| 11 | DeepSeek-V3.2-Exp | DeepSeek | 70,7 % | 29 septembre 2025 | Auto-déclaré |
| 12 | DeepSeek-V3.1 | DeepSeek | 69,7 % | 10 janvier 2025 | Auto-déclaré |
| 13 | Qwen3 32B | Qwen | 65,9 % | 29 avril 2025 | Auto-déclaré |
| 14 | DeepSeek-R1-0528 | DeepSeek | 64,3 % | 28 mai 2025 | Auto-déclaré |
| 15 | Gemma 4 12B | 55,3 % | 23 mai 2026 | Auto-déclaré | |
| 16 | DiffusionGemma 26B-A4B | 47,6 % | 10 juin 2026 | Auto-déclaré |
Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 79,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CodeForces indique qu’un modèle parvient à transformer un énoncé de concours en programme correct, avec une complexité adaptée aux contraintes implicites du problème. La mesure peut reposer sur le taux de réussite aux tests ou sur un rating Elo, selon l’implémentation, ce qui impose de comparer les résultats avec prudence. La rigueur vient de l’évaluation par soumission et tests standardisés, mais la fiabilité globale reste limitée par le fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs.
Le classement montre un niveau déjà élevé, avec une médiane à 80 % parmi les modèles recensés et un meilleur résultat à 100 % pour DeepSeek-V4-Flash-Max. Cette concentration suggère un risque de saturation sur certaines configurations. Les problèmes étant publics et issus de Codeforces, la contamination des données d’entraînement constitue aussi une limite importante. Enfin, CodeForces mesure surtout la résolution algorithmique de concours, pas la maintenance logicielle, l’intégration de projets ou le débogage en contexte réel.
Sources des scores : llm-stats.