Nemotron 3 Ultra (550B A55B)

Nemotron 3 Ultra (550B A55B) est un LLM NVIDIA publié le 4 juin 2026 sous OpenMDW License v1.1, avec des poids ouverts et un usage commercial autorisé. Le modèle se distingue par une très grande taille, 550 milliards de paramètres, et une fenêtre de contexte de 1 000 000 tokens.

Nemotron 3 Ultra (550B A55B) est un LLM NVIDIA publié le 4 juin 2026 sous OpenMDW License v1.1, avec des poids ouverts et un usage commercial autorisé. Le modèle se distingue par une très grande taille, 550 milliards de paramètres, et une fenêtre de contexte de 1 000 000 tokens.

Son positionnement combine très large contexte, licence ouverte et coût d’accès minimal nul, avec une tarification indiquée 100% sous la moyenne des LLM similaires. À sa sortie, il se situe dans le top 17% de sa génération sur GPQA, selon les données disponibles, avec une couverture fondée sur 6 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurNVIDIA
LicenceOpenMDW License v1.1 (open-weights, usage commercial autorisé)
Date de sortie4 juin 2026
Connaissances jusqu'à2025-09-30
Multimodalnon
Paramètres550 milliards
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Instruction Following (Baseline)100,0 %1ᵉ / 252benchable✅ Mesuré
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)95,2 %124ᵉ / 229benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)89,9 %3ᵉ / 52pinchbench✅ Mesuré
LiveBench: Coding71,3 %40ᵉ / 76livebench✅ Mesuré
LiveBench: IF58,2 %37ᵉ / 76livebench✅ Mesuré
LiveBench: Mathematics54,5 %72ᵉ / 76livebench✅ Mesuré
LiveBench: Language52,2 %66ᵉ / 76livebench✅ Mesuré
LiveBench: Global average51,8 %57ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding46,7 %38ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis42,0 %71ᵉ / 76livebench✅ Mesuré
Benchable : Reasoning (Baseline)39,3 %201ᵉ / 239benchable✅ Mesuré
LiveBench: Reasoning37,5 %69ᵉ / 76livebench✅ Mesuré
Benchable : General Knowledge (Baseline)28,6 %231ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)22,9 %225ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)15,0 %198ᵉ / 217benchable✅ Mesuré
Benchable : Ethics (Baseline)7,7 %233ᵉ / 248benchable✅ Mesuré
RULER94,7 %1ᵉ / 4llm-statsAuto-déclaré
IMO-AnswerBench92,3 %1ᵉ / 18llm-statsAuto-déclaré
PinchBench90,0 %1ᵉ / 4llm-statsAuto-déclaré
LiveCodeBench v689,0 %4ᵉ / 53llm-statsAuto-déclaré
GPQA87,0 %30ᵉ / 213llm-statsAuto-déclaré
MMLU-Pro86,8 %9ᵉ / 125llm-statsAuto-déclaré
WMT24++83,7 %6ᵉ / 23llm-statsAuto-déclaré
MMLU-ProX83,0 %5ᵉ / 32llm-statsAuto-déclaré
IFBench81,7 %1ᵉ / 27llm-statsAuto-déclaré
SWE-Bench Verified70,7 %53ᵉ / 100llm-statsAuto-déclaré
SWE-bench Multilingual67,7 %19ᵉ / 32llm-statsAuto-déclaré
AA-LCR65,4 %7ᵉ / 14llm-statsAuto-déclaré
Multi-Challenge63,8 %6ᵉ / 28llm-statsAuto-déclaré
LongBench v261,9 %3ᵉ / 15llm-statsAuto-déclaré
Terminal-Bench 2.156,4 %6ᵉ / 6llm-statsAuto-déclaré
Finance Agent53,7 %8ᵉ / 8llm-statsAuto-déclaré
GDPval46,7 %3ᵉ / 3llm-statsAuto-déclaré
SciCode44,6 %9ᵉ / 18llm-statsAuto-déclaré
BrowseComp44,4 %42ᵉ / 51llm-statsAuto-déclaré
GDPval-AA39,4 %18ᵉ / 33llm-statsn.d.
Finance Agent v237,5 %19ᵉ / 25llm-statsn.d.
Humanity's Last Exam37,4 %32ᵉ / 86llm-statsAuto-déclaré
TAU3-Bench22,6 %5ᵉ / 5llm-statsAuto-déclaré
CritPT3,1 %4ᵉ / 4llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Instruction Following (Baseline)

▶ Nemotron 3 Ultra100 %

Benchable : Email Classification (Baseline)

Qwen 3.5 Plus100 %
▶ Nemotron 3 Ultra100 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text142090ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
NVIDIAgratuitgratuitn.d.
DeepInfra0,5 $2,2 $0,1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)0 $
Durée d'exécution — PinchBench2 h 30 min
Coût moyen par benchmark — Benchable0,05 $
Latence moyenne par benchmark — Benchable25 min 19 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Nemotron 3 Ultra (550B A55B) ressort surtout sur le suivi d’instructions et la classification d’e-mails dans Benchable, où il atteint le meilleur niveau observé du panel. Son score PinchBench OpenClaw le place aussi dans le top 10 en agentique, sur un ensemble de tâches orientées action. La fenêtre de contexte d’environ 1,0 M de tokens constitue un atout concret pour traiter de très longs documents, des corpus internes ou des historiques étendus. La licence open-weights avec usage commercial autorisé renforce son intérêt pour des déploiements contrôlés, tandis que son tarif minimal gratuit le classe parmi les options les plus économiques de sa catégorie.

Limites et points d'attention. Les résultats sont moins homogènes dès que les évaluations s’éloignent de ses meilleurs cas d’usage. LiveBench: Coding (programmation) et LiveBench: IF (suivi d’instructions) le placent plutôt en milieu de tableau, loin des modèles haut de gamme les mieux classés. Le benchmark Hallucinations reste également un point de vigilance, avec un rang médian malgré un score élevé. Arena text le situe nettement derrière les modèles les plus compétitifs en préférence utilisateur. Profil pertinent pour des usages à très long contexte, des workflows agentiques et des scénarios où coût, licence ouverte et déploiement commercial priment sur la performance maximale en code ou en conversation générale.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).