Nemotron 3 Super (120B A12B)

Nemotron 3 Super (120B A12B) est un LLM open-weights de NVIDIA, publié le 11 mars 2026 sous NVIDIA Open Model License Agreement, avec usage commercial autorisé. Il combine un grand format de 120 milliards de paramètres avec une fenêtre de contexte très longue de 1 000 000 tokens.

Nemotron 3 Super (120B A12B) est un LLM open-weights de NVIDIA, publié le 11 mars 2026 sous NVIDIA Open Model License Agreement, avec usage commercial autorisé. Il combine un grand format de 120 milliards de paramètres avec une fenêtre de contexte très longue de 1 000 000 tokens.

Son positionnement le distingue surtout par le coût: l’entrée et la sortie sont indiquées comme gratuites par million de tokens, soit 100% sous la moyenne des LLM similaires. À sa sortie, il se situait dans le top 24% de sa génération sur GPQA, avec des données corroborées par six sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurNVIDIA
LicenceNVIDIA Open Model License Agreement (open-weights, usage commercial autorisé)
Date de sortie11 mars 2026
Connaissances jusqu'à2025-06-01
Multimodalnon
Paramètres120 milliards
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)94,0 %61ᵉ / 239benchable✅ Mesuré
Benchable : General Knowledge (Baseline)91,5 %201ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)89,0 %236ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)86,0 %168ᵉ / 229benchable✅ Mesuré
Benchable : Mathematics (Baseline)83,0 %144ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)80,0 %174ᵉ / 248benchable✅ Mesuré
LiveBench: Coding54,1 %75ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)42,2 %46ᵉ / 52pinchbench✅ Mesuré
LiveBench: Mathematics36,4 %76ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning34,4 %72ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)33,0 %201ᵉ / 252benchable✅ Mesuré
LiveBench: Global average32,5 %76ᵉ / 76livebench✅ Mesuré
LiveBench: Language30,0 %75ᵉ / 76livebench✅ Mesuré
LiveBench: IF28,4 %56ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding23,0 %64ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis21,2 %76ᵉ / 76livebench✅ Mesuré
HMMT 202594,7 %8ᵉ / 33llm-statsAuto-déclaré
RULER91,8 %2ᵉ / 4llm-statsAuto-déclaré
AIME 202590,2 %43ᵉ / 108llm-statsAuto-déclaré
WMT24++86,7 %1ᵉ / 23llm-statsAuto-déclaré
MMLU-Pro83,7 %28ᵉ / 125llm-statsAuto-déclaré
GPQA82,7 %58ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench81,2 %7ᵉ / 72llm-statsAuto-déclaré
MMLU-ProX79,4 %12ᵉ / 32llm-statsAuto-déclaré
Arena-Hard v273,9 %6ᵉ / 16llm-statsAuto-déclaré
IFBench72,6 %12ᵉ / 27llm-statsAuto-déclaré
Tau2 Telecom64,4 %28ᵉ / 34llm-statsAuto-déclaré
Tau2 Retail62,8 %23ᵉ / 25llm-statsAuto-déclaré
AA-LCR58,3 %11ᵉ / 14llm-statsAuto-déclaré
Tau2 Airline56,2 %17ᵉ / 22llm-statsAuto-déclaré
Multi-Challenge55,2 %12ᵉ / 28llm-statsAuto-déclaré
SWE-Bench Verified53,7 %82ᵉ / 100llm-statsAuto-déclaré
SWE-bench Multilingual45,8 %30ᵉ / 32llm-statsAuto-déclaré
SciCode42,0 %10ᵉ / 18llm-statsAuto-déclaré
Bird-SQL (dev)41,8 %5ᵉ / 7llm-statsAuto-déclaré
BrowseComp31,3 %47ᵉ / 51llm-statsAuto-déclaré
Terminal-Bench 2.031,0 %48ᵉ / 48llm-statsAuto-déclaré
Terminal-Bench25,8 %22ᵉ / 25llm-statsAuto-déclaré
Humanity's Last Exam22,8 %48ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Nemotron 3 Super99 %

Benchable : Reasoning (Baseline)

GPT-5.5100 %
▶ Nemotron 3 Super94 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1362162ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
NVIDIAgratuitgratuitn.d.
DeepInfra0,085 $0,4 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)0 $
Durée d'exécution — PinchBench6 h 02 min
Coût moyen par benchmark — Benchable0,05 $
Latence moyenne par benchmark — Benchable5 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Nemotron 3 Super (120B A12B) affiche ses meilleurs signaux sur Ethics (Baseline) et Reasoning (Baseline), deux mesures où il se place dans la partie solide du classement Benchable. General Knowledge (Baseline) reste élevé en score brut, ce qui indique une base de connaissances généraliste robuste jusqu’au 1er juin 2025. Sa fenêtre de contexte de 1,0 M tokens constitue un atout concret pour traiter de très longs documents, des corpus internes ou des historiques étendus sans découpage excessif. Le modèle garde aussi un intérêt économique net: sa tarification annoncée comme gratuite en entrée et en sortie le place très en dessous des LLM comparables.

Limites et points d'attention. Les rangs Benchable montrent un profil inégal: Email Classification, Hallucinations et Mathematics restent loin des premières places malgré des scores corrects. Le classement Arena text le situe également plutôt dans le milieu bas du tableau, ce qui limite son positionnement face aux modèles haut de gamme pour la qualité conversationnelle perçue. Le statut open-weights avec usage commercial autorisé favorise les déploiements contrôlés, mais n’efface pas le besoin d’évaluation interne sur les erreurs factuelles et les tâches spécialisées. Le modèle paraît surtout adapté aux usages à grand contexte et à coût minimal, lorsque la priorité n’est pas d’obtenir les meilleurs résultats absolus.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).