SciCode

SciCode est un benchmark de codage scientifique conçu par SciCode-bench, une collaboration académique multi-institutions. Il évalue la capacité des modèles de langage à produire du code pour résoudre des problèmes de recherche en sciences naturelles, à partir d’énoncés décomposés en…

SciCode est un benchmark de codage scientifique conçu par SciCode-bench, une collaboration académique multi-institutions. Il évalue la capacité des modèles de langage à produire du code pour résoudre des problèmes de recherche en sciences naturelles, à partir d’énoncés décomposés en sous-problèmes.

Le benchmark cible des compétences combinées de rappel de connaissances, de raisonnement et de synthèse de code. Son rôle est d’apprécier dans quelle mesure un modèle peut transformer une compréhension scientifique en solutions exécutables, au-delà de simples tâches de programmation générales.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSciCode-bench (collaboration académique multi-institutions)
Capacités mesuréesCodage scientifique de recherche, rappel de connaissances, raisonnement, synthèse de code dans 16 sous-domaines des sciences naturelles (maths, physique, chimie, biologie, science des matériaux)
ModalitéTexte
Type de questionsgénération de code pour problèmes scientifiques (décomposés en sous-problèmes)
Métrique d'évaluationtaux de réussite (pass rate) au niveau des sous-problèmes et des problèmes principaux, via cas de test
AccèsPublic
Languesanglais
Taille du jeu80 problèmes principaux, 338 sous-problèmes
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 18)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance59,8 %24 juin 2026Auto-déclaré
2Gemini 3.1 Pro PreviewGoogle59,0 %19 février 2026Auto-déclaré
3Seed 2.1 Turbobytedance57,8 %24 juin 2026Auto-déclaré
4Qwen3.7 MaxQwen53,5 %19 mai 2026Auto-déclaré
5Kimi K2.6Moonshot AI52,2 %20 avril 2026Auto-déclaré
6Qwen3.7-PlusQwen51,3 %31 mai 2026Auto-déclaré
7Kimi K2.5Moonshot AI48,7 %27 janvier 2026Auto-déclaré
8Kimi K2 0905Moonshot AI44,8 %5 septembre 2025Auto-déclaré
9Nemotron 3 Ultra (550B A55B)NVIDIA44,6 %4 juin 2026Auto-déclaré
10Nemotron 3 Super (120B A12B)NVIDIA42,0 %11 mars 2026Auto-déclaré
11GLM-4.5Zhipu AI41,7 %28 juillet 2025Auto-déclaré
12MiniMax M2.1MiniMax39,0 %23 décembre 2025Auto-déclaré
13North Mini Code 1.0cohere38,2 %9 juin 2026Auto-déclaré
14Command A+cohere38,0 %20 mai 2026Auto-déclaré
15Mercury 2Inception38,0 %24 février 2026Auto-déclaré
16GLM-4.5-AirZhipu AI37,3 %28 juillet 2025Auto-déclaré
17MiniMax M2MiniMax36,0 %27 octobre 2025Auto-déclaré
18Nemotron 3 Nano (30B A3B)NVIDIA33,3 %15 décembre 2025Auto-déclaré

Classement établi sur 18 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 43,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SciCode indique qu’un modèle parvient à générer du code qui passe des cas de test sur des problèmes scientifiques structurés, aussi bien au niveau des sous-problèmes que des problèmes principaux. Cela suggère une maîtrise conjointe du raisonnement, de connaissances spécialisées et de l’implémentation. L’évaluation repose sur des cas de test, ce qui apporte un critère mesurable, mais la fiabilité du classement doit être nuancée puisque les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée du benchmark reste centrée sur des problèmes en anglais et sur 16 sous-domaines des sciences naturelles, sans couvrir l’ensemble des pratiques de recherche ni tous les contextes logiciels. La contamination éventuelle des données ne peut pas être exclue à partir des informations fournies. Dans la base considérée, le score médian de 43% et le meilleur résultat, Seed 2.1 Pro à 60%, montrent une marge de progression importante, plutôt qu’une saturation du benchmark.


Sources des scores : llm-stats.