Raisonnement

OJBench

OJBench est un benchmark de code de niveau compétition publié par BUPT et Moonshot AI. Il évalue la capacité des grands modèles de langage à raisonner sur des problèmes d’algorithmique avancée, dans un cadre proche de la programmation compétitive.

Le benchmark repose sur des tâches issues de compétitions comme NOI et ICPC, avec une validation par juge en ligne. Il sert ainsi à mesurer non seulement la génération de code, mais aussi la capacité à produire des solutions correctes, efficaces et acceptées en Python ou en C++.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	BUPT & Moonshot AI
Capacités mesurées	Raisonnement de code de niveau compétition (algorithmique avancée)
Modalité	Texte
Type de questions	programmation compétitive (génération de code jugée par un juge en ligne / online judge)
Métrique d'évaluation	taux de résolution (acceptation via online judge), par difficulté
Accès	Public
Langues	Python et C++ (énoncés bilingues)
Taille du jeu	232 problèmes (NOI + ICPC), niveaux Facile/Moyen/Difficile
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2.6	Moonshot AI	60,6 %	20 avril 2026	Auto-déclaré
2	Kimi K2 0905	Moonshot AI	48,7 %	5 septembre 2025	Auto-déclaré
3	Qwen3.5-27B	Qwen	40,1 %	24 février 2026	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	39,5 %	24 février 2026	Auto-déclaré
5	Qwen3.5-35B-A3B	Qwen	36,0 %	24 février 2026	Auto-déclaré
6	Qwen3-235B-A22B-Thinking-2507	Qwen	32,5 %	25 juillet 2025	Auto-déclaré
7	Qwen3-Next-80B-A3B-Thinking	Qwen	29,7 %	10 septembre 2025	Auto-déclaré
8	Kimi K2 Instruct	Moonshot AI	27,1 %	11 juillet 2025	Auto-déclaré
9	Kimi K2-Instruct-0905	Moonshot AI	27,1 %	5 septembre 2025	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 36,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OJBench indique qu’un modèle parvient à résoudre une part importante de problèmes compétitifs avec du code accepté par un online judge. La mesure est donc plus stricte qu’une simple évaluation textuelle, car la solution doit passer des tests d’exécution. Le résultat reste toutefois à interpréter avec prudence, les scores disponibles dans la base étant majoritairement auto-déclarés par les éditeurs.

Le classement suggère un écart net entre les meilleurs systèmes et le niveau central de l’ensemble évalué : parmi les 9 modèles suivis, la médiane atteint 36 %, tandis que Kimi K2.6 arrive en tête avec 61 %. Cela montre que le benchmark conserve une difficulté significative. Ses limites tiennent à sa portée spécialisée, centrée sur l’algorithmique de compétition, ainsi qu’aux risques habituels de contamination des données publiques et à une possible saturation future si les modèles progressent fortement sur ce type de problèmes.

Sources des scores : llm-stats.

OJBench

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++