SciCode
SciCode est un benchmark de codage scientifique conçu par SciCode-bench, une collaboration académique multi-institutions. Il évalue la capacité des modèles de langage à produire du code pour résoudre des problèmes de recherche en sciences naturelles, à partir d’énoncés décomposés en…
SciCode est un benchmark de codage scientifique conçu par SciCode-bench, une collaboration académique multi-institutions. Il évalue la capacité des modèles de langage à produire du code pour résoudre des problèmes de recherche en sciences naturelles, à partir d’énoncés décomposés en sous-problèmes.
Le benchmark cible des compétences combinées de rappel de connaissances, de raisonnement et de synthèse de code. Son rôle est d’apprécier dans quelle mesure un modèle peut transformer une compréhension scientifique en solutions exécutables, au-delà de simples tâches de programmation générales.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | SciCode-bench (collaboration académique multi-institutions) |
| Capacités mesurées | Codage scientifique de recherche, rappel de connaissances, raisonnement, synthèse de code dans 16 sous-domaines des sciences naturelles (maths, physique, chimie, biologie, science des matériaux) |
| Modalité | Texte |
| Type de questions | génération de code pour problèmes scientifiques (décomposés en sous-problèmes) |
| Métrique d'évaluation | taux de réussite (pass rate) au niveau des sous-problèmes et des problèmes principaux, via cas de test |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 80 problèmes principaux, 338 sous-problèmes |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 18)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 59,8 % | 24 juin 2026 | Auto-déclaré |
| 2 | Gemini 3.1 Pro Preview | 59,0 % | 19 février 2026 | Auto-déclaré | |
| 3 | Seed 2.1 Turbo | bytedance | 57,8 % | 24 juin 2026 | Auto-déclaré |
| 4 | Qwen3.7 Max | Qwen | 53,5 % | 19 mai 2026 | Auto-déclaré |
| 5 | Kimi K2.6 | Moonshot AI | 52,2 % | 20 avril 2026 | Auto-déclaré |
| 6 | Qwen3.7-Plus | Qwen | 51,3 % | 31 mai 2026 | Auto-déclaré |
| 7 | Kimi K2.5 | Moonshot AI | 48,7 % | 27 janvier 2026 | Auto-déclaré |
| 8 | Kimi K2 0905 | Moonshot AI | 44,8 % | 5 septembre 2025 | Auto-déclaré |
| 9 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 44,6 % | 4 juin 2026 | Auto-déclaré |
| 10 | Nemotron 3 Super (120B A12B) | NVIDIA | 42,0 % | 11 mars 2026 | Auto-déclaré |
| 11 | GLM-4.5 | Zhipu AI | 41,7 % | 28 juillet 2025 | Auto-déclaré |
| 12 | MiniMax M2.1 | MiniMax | 39,0 % | 23 décembre 2025 | Auto-déclaré |
| 13 | North Mini Code 1.0 | cohere | 38,2 % | 9 juin 2026 | Auto-déclaré |
| 14 | Command A+ | cohere | 38,0 % | 20 mai 2026 | Auto-déclaré |
| 15 | Mercury 2 | Inception | 38,0 % | 24 février 2026 | Auto-déclaré |
| 16 | GLM-4.5-Air | Zhipu AI | 37,3 % | 28 juillet 2025 | Auto-déclaré |
| 17 | MiniMax M2 | MiniMax | 36,0 % | 27 octobre 2025 | Auto-déclaré |
| 18 | Nemotron 3 Nano (30B A3B) | NVIDIA | 33,3 % | 15 décembre 2025 | Auto-déclaré |
Classement établi sur 18 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 43,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SciCode indique qu’un modèle parvient à générer du code qui passe des cas de test sur des problèmes scientifiques structurés, aussi bien au niveau des sous-problèmes que des problèmes principaux. Cela suggère une maîtrise conjointe du raisonnement, de connaissances spécialisées et de l’implémentation. L’évaluation repose sur des cas de test, ce qui apporte un critère mesurable, mais la fiabilité du classement doit être nuancée puisque les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée du benchmark reste centrée sur des problèmes en anglais et sur 16 sous-domaines des sciences naturelles, sans couvrir l’ensemble des pratiques de recherche ni tous les contextes logiciels. La contamination éventuelle des données ne peut pas être exclue à partir des informations fournies. Dans la base considérée, le score médian de 43% et le meilleur résultat, Seed 2.1 Pro à 60%, montrent une marge de progression importante, plutôt qu’une saturation du benchmark.
Sources des scores : llm-stats.