NVIDIA

Nemotron 3 Super (120B A12B)

Nemotron 3 Super (120B A12B) est un LLM open-weights de NVIDIA, publié le 11 mars 2026 sous NVIDIA Open Model License Agreement, avec usage commercial autorisé. Il combine un grand format de 120 milliards de paramètres avec une fenêtre de contexte très longue de 1 000 000 tokens.

Son positionnement le distingue surtout par le coût: l’entrée et la sortie sont indiquées comme gratuites par million de tokens, soit 100% sous la moyenne des LLM similaires. À sa sortie, il se situait dans le top 24% de sa génération sur GPQA, avec des données corroborées par six sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	NVIDIA
Licence	NVIDIA Open Model License Agreement (open-weights, usage commercial autorisé)
Date de sortie	11 mars 2026
Connaissances jusqu'à	2025-06-01
Multimodal	non
Paramètres	120 milliards
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	94,0 %	61ᵉ / 239	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	91,5 %	201ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	89,0 %	236ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	86,0 %	168ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	83,0 %	144ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	80,0 %	174ᵉ / 248	benchable	✅ Mesuré
LiveBench: Coding	54,1 %	75ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	42,2 %	46ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Mathematics	36,4 %	76ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	34,4 %	72ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	33,0 %	201ᵉ / 252	benchable	✅ Mesuré
LiveBench: Global average	32,5 %	76ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	30,0 %	75ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	28,4 %	56ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	23,0 %	64ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	21,2 %	76ᵉ / 76	livebench	✅ Mesuré
HMMT 2025	94,7 %	8ᵉ / 33	llm-stats	Auto-déclaré
RULER	91,8 %	2ᵉ / 4	llm-stats	Auto-déclaré
AIME 2025	90,2 %	43ᵉ / 108	llm-stats	Auto-déclaré
WMT24++	86,7 %	1ᵉ / 23	llm-stats	Auto-déclaré
MMLU-Pro	83,7 %	28ᵉ / 125	llm-stats	Auto-déclaré
GPQA	82,7 %	58ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	81,2 %	7ᵉ / 72	llm-stats	Auto-déclaré
MMLU-ProX	79,4 %	12ᵉ / 32	llm-stats	Auto-déclaré
Arena-Hard v2	73,9 %	6ᵉ / 16	llm-stats	Auto-déclaré
IFBench	72,6 %	12ᵉ / 27	llm-stats	Auto-déclaré
Tau2 Telecom	64,4 %	28ᵉ / 34	llm-stats	Auto-déclaré
Tau2 Retail	62,8 %	23ᵉ / 25	llm-stats	Auto-déclaré
AA-LCR	58,3 %	11ᵉ / 14	llm-stats	Auto-déclaré
Tau2 Airline	56,2 %	17ᵉ / 22	llm-stats	Auto-déclaré
Multi-Challenge	55,2 %	12ᵉ / 28	llm-stats	Auto-déclaré
SWE-Bench Verified	53,7 %	82ᵉ / 100	llm-stats	Auto-déclaré
SWE-bench Multilingual	45,8 %	30ᵉ / 32	llm-stats	Auto-déclaré
SciCode	42,0 %	10ᵉ / 18	llm-stats	Auto-déclaré
Bird-SQL (dev)	41,8 %	5ᵉ / 7	llm-stats	Auto-déclaré
BrowseComp	31,3 %	47ᵉ / 51	llm-stats	Auto-déclaré
Terminal-Bench 2.0	31,0 %	48ᵉ / 48	llm-stats	Auto-déclaré
Terminal-Bench	25,8 %	22ᵉ / 25	llm-stats	Auto-déclaré
Humanity's Last Exam	22,8 %	48ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Nemotron 3 Super99 %

Benchable : Reasoning (Baseline)

DeepSeek V4 Flash100 %

Gemini 3.1 Pro Preview100 %

GPT-5.5100 %

Grok 4.396 %

▶ Nemotron 3 Super94 %

Mistral Medium 3.580 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1362	162ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
NVIDIA	gratuit	gratuit	n.d.
DeepInfra	0,085 $	0,4 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	0 $
Durée d'exécution — PinchBench	6 h 02 min
Coût moyen par benchmark — Benchable	0,05 $
Latence moyenne par benchmark — Benchable	5 min 24 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Nemotron 3 Super (120B A12B) affiche ses meilleurs signaux sur Ethics (Baseline) et Reasoning (Baseline), deux mesures où il se place dans la partie solide du classement Benchable. General Knowledge (Baseline) reste élevé en score brut, ce qui indique une base de connaissances généraliste robuste jusqu’au 1er juin 2025. Sa fenêtre de contexte de 1,0 M tokens constitue un atout concret pour traiter de très longs documents, des corpus internes ou des historiques étendus sans découpage excessif. Le modèle garde aussi un intérêt économique net: sa tarification annoncée comme gratuite en entrée et en sortie le place très en dessous des LLM comparables.

Limites et points d'attention. Les rangs Benchable montrent un profil inégal: Email Classification, Hallucinations et Mathematics restent loin des premières places malgré des scores corrects. Le classement Arena text le situe également plutôt dans le milieu bas du tableau, ce qui limite son positionnement face aux modèles haut de gamme pour la qualité conversationnelle perçue. Le statut open-weights avec usage commercial autorisé favorise les déploiements contrôlés, mais n’efface pas le besoin d’évaluation interne sur les erreurs factuelles et les tâches spécialisées. Le modèle paraît surtout adapté aux usages à grand contexte et à coût minimal, lorsque la priorité n’est pas d’obtenir les meilleurs résultats absolus.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Nemotron 3 Super (120B A12B)

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast