Mathématiques

CodeForces

CodeForces est un benchmark de programmation compétitive fondé sur des problèmes issus de la plateforme Codeforces. Il évalue la capacité des modèles de langage à comprendre des énoncés algorithmiques exigeants, à concevoir une solution efficace et à produire du code exécutable.

Son intérêt tient à la combinaison entre raisonnement formel, choix d’algorithmes et validation par tests. Les tâches couvrent notamment la programmation dynamique, les graphes, les structures de données et les problèmes mathématiques, ce qui en fait un indicateur utile pour mesurer la génération de code algorithmique.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Plateforme Codeforces (programmation compétitive)
Capacités mesurées	Compréhension d'énoncés complexes, conception d'algorithmes efficaces (programmation dynamique, graphes, structures de données) et génération de code correct.
Modalité	Texte
Type de questions	Génération de code algorithmique (problèmes de concours, difficulté ~800-2400)
Métrique d'évaluation	Taux de réussite des tests / rating Elo (selon l'implémentation)
Accès	Public
Licence	propriétaire
Langues	Énoncés en anglais ; code (C++, Python, etc.)
Taille du jeu	Variable selon l'implémentation (ex. CodeElo : 387 problèmes)
Ressources	Site / dépôt officiel

Classement des modèles (top 16)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek-V4-Flash-Max	DeepSeek	100,0 %	23 avril 2026	Auto-déclaré
2	DeepSeek-V4-Pro-Max	DeepSeek	100,0 %	23 avril 2026	Auto-déclaré
3	DeepSeek-V3.2-Speciale	DeepSeek	90,0 %	1 décembre 2025	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	85,1 %	24 février 2026	Auto-déclaré
5	Qwen3.5-35B-A3B	Qwen	82,2 %	24 février 2026	Auto-déclaré
6	GPT OSS 120B	OpenAI	82,1 %	5 août 2025	Auto-déclaré
7	Qwen3.5-27B	Qwen	80,7 %	24 février 2026	Auto-déclaré
8	DeepSeek-V3.2	DeepSeek	79,5 %	1 décembre 2025	Auto-déclaré
9	DeepSeek-V3.2 (Thinking)	DeepSeek	79,5 %	1 décembre 2025	Auto-déclaré
10	GPT OSS 20B	OpenAI	74,3 %	5 août 2025	Auto-déclaré
11	DeepSeek-V3.2-Exp	DeepSeek	70,7 %	29 septembre 2025	Auto-déclaré
12	DeepSeek-V3.1	DeepSeek	69,7 %	10 janvier 2025	Auto-déclaré
13	Qwen3 32B	Qwen	65,9 %	29 avril 2025	Auto-déclaré
14	DeepSeek-R1-0528	DeepSeek	64,3 %	28 mai 2025	Auto-déclaré
15	Gemma 4 12B	Google	55,3 %	23 mai 2026	Auto-déclaré
16	DiffusionGemma 26B-A4B	Google	47,6 %	10 juin 2026	Auto-déclaré

Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 79,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CodeForces indique qu’un modèle parvient à transformer un énoncé de concours en programme correct, avec une complexité adaptée aux contraintes implicites du problème. La mesure peut reposer sur le taux de réussite aux tests ou sur un rating Elo, selon l’implémentation, ce qui impose de comparer les résultats avec prudence. La rigueur vient de l’évaluation par soumission et tests standardisés, mais la fiabilité globale reste limitée par le fait que les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs.

Le classement montre un niveau déjà élevé, avec une médiane à 80 % parmi les modèles recensés et un meilleur résultat à 100 % pour DeepSeek-V4-Flash-Max. Cette concentration suggère un risque de saturation sur certaines configurations. Les problèmes étant publics et issus de Codeforces, la contamination des données d’entraînement constitue aussi une limite importante. Enfin, CodeForces mesure surtout la résolution algorithmique de concours, pas la maintenance logicielle, l’intégration de projets ou le débogage en contexte réel.

Sources des scores : llm-stats.

CodeForces

Carte d'identité

Classement des modèles (top 16)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23