OJBench

OJBench est un benchmark de code de niveau compétition publié par BUPT et Moonshot AI. Il évalue la capacité des grands modèles de langage à raisonner sur des problèmes d’algorithmique avancée, dans un cadre proche de la programmation compétitive.

OJBench est un benchmark de code de niveau compétition publié par BUPT et Moonshot AI. Il évalue la capacité des grands modèles de langage à raisonner sur des problèmes d’algorithmique avancée, dans un cadre proche de la programmation compétitive.

Le benchmark repose sur des tâches issues de compétitions comme NOI et ICPC, avec une validation par juge en ligne. Il sert ainsi à mesurer non seulement la génération de code, mais aussi la capacité à produire des solutions correctes, efficaces et acceptées en Python ou en C++.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBUPT & Moonshot AI
Capacités mesuréesRaisonnement de code de niveau compétition (algorithmique avancée)
ModalitéTexte
Type de questionsprogrammation compétitive (génération de code jugée par un juge en ligne / online judge)
Métrique d'évaluationtaux de résolution (acceptation via online judge), par difficulté
AccèsPublic
LanguesPython et C++ (énoncés bilingues)
Taille du jeu232 problèmes (NOI + ICPC), niveaux Facile/Moyen/Difficile
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2.6Moonshot AI60,6 %20 avril 2026Auto-déclaré
2Kimi K2 0905Moonshot AI48,7 %5 septembre 2025Auto-déclaré
3Qwen3.5-27BQwen40,1 %24 février 2026Auto-déclaré
4Qwen3.5-122B-A10BQwen39,5 %24 février 2026Auto-déclaré
5Qwen3.5-35B-A3BQwen36,0 %24 février 2026Auto-déclaré
6Qwen3-235B-A22B-Thinking-2507Qwen32,5 %25 juillet 2025Auto-déclaré
7Qwen3-Next-80B-A3B-ThinkingQwen29,7 %10 septembre 2025Auto-déclaré
8Kimi K2 InstructMoonshot AI27,1 %11 juillet 2025Auto-déclaré
9Kimi K2-Instruct-0905Moonshot AI27,1 %5 septembre 2025Auto-déclaré

Classement établi sur 9 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 36,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OJBench indique qu’un modèle parvient à résoudre une part importante de problèmes compétitifs avec du code accepté par un online judge. La mesure est donc plus stricte qu’une simple évaluation textuelle, car la solution doit passer des tests d’exécution. Le résultat reste toutefois à interpréter avec prudence, les scores disponibles dans la base étant majoritairement auto-déclarés par les éditeurs.

Le classement suggère un écart net entre les meilleurs systèmes et le niveau central de l’ensemble évalué : parmi les 9 modèles suivis, la médiane atteint 36 %, tandis que Kimi K2.6 arrive en tête avec 61 %. Cela montre que le benchmark conserve une difficulté significative. Ses limites tiennent à sa portée spécialisée, centrée sur l’algorithmique de compétition, ainsi qu’aux risques habituels de contamination des données publiques et à une possible saturation future si les modèles progressent fortement sur ce type de problèmes.


Sources des scores : llm-stats.