NVIDIA

Nemotron 3 Ultra (550B A55B)

Nemotron 3 Ultra (550B A55B) est un LLM NVIDIA publié le 4 juin 2026 sous OpenMDW License v1.1, avec des poids ouverts et un usage commercial autorisé. Le modèle se distingue par une très grande taille, 550 milliards de paramètres, et une fenêtre de contexte de 1 000 000 tokens.

Son positionnement combine très large contexte, licence ouverte et coût d’accès minimal nul, avec une tarification indiquée 100% sous la moyenne des LLM similaires. À sa sortie, il se situe dans le top 17% de sa génération sur GPQA, selon les données disponibles, avec une couverture fondée sur 6 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	NVIDIA
Licence	OpenMDW License v1.1 (open-weights, usage commercial autorisé)
Date de sortie	4 juin 2026
Connaissances jusqu'à	2025-09-30
Multimodal	non
Paramètres	550 milliards
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Instruction Following (Baseline)	100,0 %	1ᵉ / 252	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	95,2 %	124ᵉ / 229	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	89,9 %	3ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Coding	71,3 %	40ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	58,2 %	37ᵉ / 76	livebench	✅ Mesuré
LiveBench: Mathematics	54,5 %	72ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	52,2 %	66ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	51,8 %	57ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	46,7 %	38ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	42,0 %	71ᵉ / 76	livebench	✅ Mesuré
Benchable : Reasoning (Baseline)	39,3 %	201ᵉ / 239	benchable	✅ Mesuré
LiveBench: Reasoning	37,5 %	69ᵉ / 76	livebench	✅ Mesuré
Benchable : General Knowledge (Baseline)	28,6 %	231ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	22,9 %	225ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	15,0 %	198ᵉ / 217	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	7,7 %	233ᵉ / 248	benchable	✅ Mesuré
RULER	94,7 %	1ᵉ / 4	llm-stats	Auto-déclaré
IMO-AnswerBench	92,3 %	1ᵉ / 18	llm-stats	Auto-déclaré
PinchBench	90,0 %	1ᵉ / 4	llm-stats	Auto-déclaré
LiveCodeBench v6	89,0 %	4ᵉ / 53	llm-stats	Auto-déclaré
GPQA	87,0 %	30ᵉ / 213	llm-stats	Auto-déclaré
MMLU-Pro	86,8 %	9ᵉ / 125	llm-stats	Auto-déclaré
WMT24++	83,7 %	6ᵉ / 23	llm-stats	Auto-déclaré
MMLU-ProX	83,0 %	5ᵉ / 32	llm-stats	Auto-déclaré
IFBench	81,7 %	1ᵉ / 27	llm-stats	Auto-déclaré
SWE-Bench Verified	70,7 %	53ᵉ / 100	llm-stats	Auto-déclaré
SWE-bench Multilingual	67,7 %	19ᵉ / 32	llm-stats	Auto-déclaré
AA-LCR	65,4 %	7ᵉ / 14	llm-stats	Auto-déclaré
Multi-Challenge	63,8 %	6ᵉ / 28	llm-stats	Auto-déclaré
LongBench v2	61,9 %	3ᵉ / 15	llm-stats	Auto-déclaré
Terminal-Bench 2.1	56,4 %	6ᵉ / 6	llm-stats	Auto-déclaré
Finance Agent	53,7 %	8ᵉ / 8	llm-stats	Auto-déclaré
GDPval	46,7 %	3ᵉ / 3	llm-stats	Auto-déclaré
SciCode	44,6 %	9ᵉ / 18	llm-stats	Auto-déclaré
BrowseComp	44,4 %	42ᵉ / 51	llm-stats	Auto-déclaré
GDPval-AA	39,4 %	18ᵉ / 33	llm-stats	n.d.
Finance Agent v2	37,5 %	19ᵉ / 25	llm-stats	n.d.
Humanity's Last Exam	37,4 %	32ᵉ / 86	llm-stats	Auto-déclaré
TAU3-Bench	22,6 %	5ᵉ / 5	llm-stats	Auto-déclaré
CritPT	3,1 %	4ᵉ / 4	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Instruction Following (Baseline)

DeepSeek-R1100 %

▶ Nemotron 3 Ultra100 %

Gemini 3.1 Pro …95 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

Qwen 3.5 Plus100 %

▶ Nemotron 3 Ultra100 %

Claude Sonnet 499 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1420	90ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
NVIDIA	gratuit	gratuit	n.d.
DeepInfra	0,5 $	2,2 $	0,1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	0 $
Durée d'exécution — PinchBench	2 h 30 min
Coût moyen par benchmark — Benchable	0,05 $
Latence moyenne par benchmark — Benchable	25 min 19 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Nemotron 3 Ultra (550B A55B) ressort surtout sur le suivi d’instructions et la classification d’e-mails dans Benchable, où il atteint le meilleur niveau observé du panel. Son score PinchBench OpenClaw le place aussi dans le top 10 en agentique, sur un ensemble de tâches orientées action. La fenêtre de contexte d’environ 1,0 M de tokens constitue un atout concret pour traiter de très longs documents, des corpus internes ou des historiques étendus. La licence open-weights avec usage commercial autorisé renforce son intérêt pour des déploiements contrôlés, tandis que son tarif minimal gratuit le classe parmi les options les plus économiques de sa catégorie.

Limites et points d'attention. Les résultats sont moins homogènes dès que les évaluations s’éloignent de ses meilleurs cas d’usage. LiveBench: Coding (programmation) et LiveBench: IF (suivi d’instructions) le placent plutôt en milieu de tableau, loin des modèles haut de gamme les mieux classés. Le benchmark Hallucinations reste également un point de vigilance, avec un rang médian malgré un score élevé. Arena text le situe nettement derrière les modèles les plus compétitifs en préférence utilisateur. Profil pertinent pour des usages à très long contexte, des workflows agentiques et des scénarios où coût, licence ouverte et déploiement commercial priment sur la performance maximale en code ou en conversation générale.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Nemotron 3 Ultra (550B A55B)

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast