OJBench
OJBench est un benchmark de code de niveau compétition publié par BUPT et Moonshot AI. Il évalue la capacité des grands modèles de langage à raisonner sur des problèmes d’algorithmique avancée, dans un cadre proche de la programmation compétitive.
OJBench est un benchmark de code de niveau compétition publié par BUPT et Moonshot AI. Il évalue la capacité des grands modèles de langage à raisonner sur des problèmes d’algorithmique avancée, dans un cadre proche de la programmation compétitive.
Le benchmark repose sur des tâches issues de compétitions comme NOI et ICPC, avec une validation par juge en ligne. Il sert ainsi à mesurer non seulement la génération de code, mais aussi la capacité à produire des solutions correctes, efficaces et acceptées en Python ou en C++.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | BUPT & Moonshot AI |
| Capacités mesurées | Raisonnement de code de niveau compétition (algorithmique avancée) |
| Modalité | Texte |
| Type de questions | programmation compétitive (génération de code jugée par un juge en ligne / online judge) |
| Métrique d'évaluation | taux de résolution (acceptation via online judge), par difficulté |
| Accès | Public |
| Langues | Python et C++ (énoncés bilingues) |
| Taille du jeu | 232 problèmes (NOI + ICPC), niveaux Facile/Moyen/Difficile |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot AI | 60,6 % | 20 avril 2026 | Auto-déclaré |
| 2 | Kimi K2 0905 | Moonshot AI | 48,7 % | 5 septembre 2025 | Auto-déclaré |
| 3 | Qwen3.5-27B | Qwen | 40,1 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 39,5 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3.5-35B-A3B | Qwen | 36,0 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 32,5 % | 25 juillet 2025 | Auto-déclaré |
| 7 | Qwen3-Next-80B-A3B-Thinking | Qwen | 29,7 % | 10 septembre 2025 | Auto-déclaré |
| 8 | Kimi K2 Instruct | Moonshot AI | 27,1 % | 11 juillet 2025 | Auto-déclaré |
| 9 | Kimi K2-Instruct-0905 | Moonshot AI | 27,1 % | 5 septembre 2025 | Auto-déclaré |
Classement établi sur 9 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 36,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OJBench indique qu’un modèle parvient à résoudre une part importante de problèmes compétitifs avec du code accepté par un online judge. La mesure est donc plus stricte qu’une simple évaluation textuelle, car la solution doit passer des tests d’exécution. Le résultat reste toutefois à interpréter avec prudence, les scores disponibles dans la base étant majoritairement auto-déclarés par les éditeurs.
Le classement suggère un écart net entre les meilleurs systèmes et le niveau central de l’ensemble évalué : parmi les 9 modèles suivis, la médiane atteint 36 %, tandis que Kimi K2.6 arrive en tête avec 61 %. Cela montre que le benchmark conserve une difficulté significative. Ses limites tiennent à sa portée spécialisée, centrée sur l’algorithmique de compétition, ainsi qu’aux risques habituels de contamination des données publiques et à une possible saturation future si les modèles progressent fortement sur ce type de problèmes.
Sources des scores : llm-stats.