Code & programmation

SciCode

SciCode est un benchmark de codage scientifique conçu par SciCode-bench, une collaboration académique multi-institutions. Il évalue la capacité des modèles de langage à produire du code pour résoudre des problèmes de recherche en sciences naturelles, à partir d’énoncés décomposés en…

Le benchmark cible des compétences combinées de rappel de connaissances, de raisonnement et de synthèse de code. Son rôle est d’apprécier dans quelle mesure un modèle peut transformer une compréhension scientifique en solutions exécutables, au-delà de simples tâches de programmation générales.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	SciCode-bench (collaboration académique multi-institutions)
Capacités mesurées	Codage scientifique de recherche, rappel de connaissances, raisonnement, synthèse de code dans 16 sous-domaines des sciences naturelles (maths, physique, chimie, biologie, science des matériaux)
Modalité	Texte
Type de questions	génération de code pour problèmes scientifiques (décomposés en sous-problèmes)
Métrique d'évaluation	taux de réussite (pass rate) au niveau des sous-problèmes et des problèmes principaux, via cas de test
Accès	Public
Langues	anglais
Taille du jeu	80 problèmes principaux, 338 sous-problèmes
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 18)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	59,8 %	24 juin 2026	Auto-déclaré
2	Gemini 3.1 Pro Preview	Google	59,0 %	19 février 2026	Auto-déclaré
3	Seed 2.1 Turbo	bytedance	57,8 %	24 juin 2026	Auto-déclaré
4	Qwen3.7 Max	Qwen	53,5 %	19 mai 2026	Auto-déclaré
5	Kimi K2.6	Moonshot AI	52,2 %	20 avril 2026	Auto-déclaré
6	Qwen3.7-Plus	Qwen	51,3 %	31 mai 2026	Auto-déclaré
7	Kimi K2.5	Moonshot AI	48,7 %	27 janvier 2026	Auto-déclaré
8	Kimi K2 0905	Moonshot AI	44,8 %	5 septembre 2025	Auto-déclaré
9	Nemotron 3 Ultra (550B A55B)	NVIDIA	44,6 %	4 juin 2026	Auto-déclaré
10	Nemotron 3 Super (120B A12B)	NVIDIA	42,0 %	11 mars 2026	Auto-déclaré
11	GLM-4.5	Zhipu AI	41,7 %	28 juillet 2025	Auto-déclaré
12	MiniMax M2.1	MiniMax	39,0 %	23 décembre 2025	Auto-déclaré
13	North Mini Code 1.0	cohere	38,2 %	9 juin 2026	Auto-déclaré
14	Command A+	cohere	38,0 %	20 mai 2026	Auto-déclaré
15	Mercury 2	Inception	38,0 %	24 février 2026	Auto-déclaré
16	GLM-4.5-Air	Zhipu AI	37,3 %	28 juillet 2025	Auto-déclaré
17	MiniMax M2	MiniMax	36,0 %	27 octobre 2025	Auto-déclaré
18	Nemotron 3 Nano (30B A3B)	NVIDIA	33,3 %	15 décembre 2025	Auto-déclaré

Classement établi sur 18 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 43,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SciCode indique qu’un modèle parvient à générer du code qui passe des cas de test sur des problèmes scientifiques structurés, aussi bien au niveau des sous-problèmes que des problèmes principaux. Cela suggère une maîtrise conjointe du raisonnement, de connaissances spécialisées et de l’implémentation. L’évaluation repose sur des cas de test, ce qui apporte un critère mesurable, mais la fiabilité du classement doit être nuancée puisque les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée du benchmark reste centrée sur des problèmes en anglais et sur 16 sous-domaines des sciences naturelles, sans couvrir l’ensemble des pratiques de recherche ni tous les contextes logiciels. La contamination éventuelle des données ne peut pas être exclue à partir des informations fournies. Dans la base considérée, le score médian de 43% et le meilleur résultat, Seed 2.1 Pro à 60%, montrent une marge de progression importante, plutôt qu’une saturation du benchmark.

Sources des scores : llm-stats.

SciCode

Carte d'identité

Classement des modèles (top 18)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++