Nemotron 3 Ultra (550B A55B)
Nemotron 3 Ultra (550B A55B) est un LLM NVIDIA publié le 4 juin 2026 sous OpenMDW License v1.1, avec des poids ouverts et un usage commercial autorisé. Le modèle se distingue par une très grande taille, 550 milliards de paramètres, et une fenêtre de contexte de 1 000 000 tokens.
Nemotron 3 Ultra (550B A55B) est un LLM NVIDIA publié le 4 juin 2026 sous OpenMDW License v1.1, avec des poids ouverts et un usage commercial autorisé. Le modèle se distingue par une très grande taille, 550 milliards de paramètres, et une fenêtre de contexte de 1 000 000 tokens.
Son positionnement combine très large contexte, licence ouverte et coût d’accès minimal nul, avec une tarification indiquée 100% sous la moyenne des LLM similaires. À sa sortie, il se situe dans le top 17% de sa génération sur GPQA, selon les données disponibles, avec une couverture fondée sur 6 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | NVIDIA |
| Licence | OpenMDW License v1.1 (open-weights, usage commercial autorisé) |
| Date de sortie | 4 juin 2026 |
| Connaissances jusqu'à | 2025-09-30 |
| Multimodal | non |
| Paramètres | 550 milliards |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Instruction Following (Baseline) | 100,0 % | 1ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 95,2 % | 124ᵉ / 229 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 89,9 % | 3ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Coding | 71,3 % | 40ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 58,2 % | 37ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Mathematics | 54,5 % | 72ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 52,2 % | 66ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 51,8 % | 57ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 46,7 % | 38ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 42,0 % | 71ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 39,3 % | 201ᵉ / 239 | benchable | ✅ Mesuré |
| LiveBench: Reasoning | 37,5 % | 69ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 28,6 % | 231ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 22,9 % | 225ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 15,0 % | 198ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 7,7 % | 233ᵉ / 248 | benchable | ✅ Mesuré |
| RULER | 94,7 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 92,3 % | 1ᵉ / 18 | llm-stats | Auto-déclaré |
| PinchBench | 90,0 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 89,0 % | 4ᵉ / 53 | llm-stats | Auto-déclaré |
| GPQA | 87,0 % | 30ᵉ / 213 | llm-stats | Auto-déclaré |
| MMLU-Pro | 86,8 % | 9ᵉ / 125 | llm-stats | Auto-déclaré |
| WMT24++ | 83,7 % | 6ᵉ / 23 | llm-stats | Auto-déclaré |
| MMLU-ProX | 83,0 % | 5ᵉ / 32 | llm-stats | Auto-déclaré |
| IFBench | 81,7 % | 1ᵉ / 27 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 70,7 % | 53ᵉ / 100 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 67,7 % | 19ᵉ / 32 | llm-stats | Auto-déclaré |
| AA-LCR | 65,4 % | 7ᵉ / 14 | llm-stats | Auto-déclaré |
| Multi-Challenge | 63,8 % | 6ᵉ / 28 | llm-stats | Auto-déclaré |
| LongBench v2 | 61,9 % | 3ᵉ / 15 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.1 | 56,4 % | 6ᵉ / 6 | llm-stats | Auto-déclaré |
| Finance Agent | 53,7 % | 8ᵉ / 8 | llm-stats | Auto-déclaré |
| GDPval | 46,7 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| SciCode | 44,6 % | 9ᵉ / 18 | llm-stats | Auto-déclaré |
| BrowseComp | 44,4 % | 42ᵉ / 51 | llm-stats | Auto-déclaré |
| GDPval-AA | 39,4 % | 18ᵉ / 33 | llm-stats | n.d. |
| Finance Agent v2 | 37,5 % | 19ᵉ / 25 | llm-stats | n.d. |
| Humanity's Last Exam | 37,4 % | 32ᵉ / 86 | llm-stats | Auto-déclaré |
| TAU3-Bench | 22,6 % | 5ᵉ / 5 | llm-stats | Auto-déclaré |
| CritPT | 3,1 % | 4ᵉ / 4 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Instruction Following (Baseline)
Benchable : Email Classification (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1420 | 90ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| NVIDIA | gratuit | gratuit | n.d. |
| DeepInfra | 0,5 $ | 2,2 $ | 0,1 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 0 $ |
| Durée d'exécution — PinchBench | 2 h 30 min |
| Coût moyen par benchmark — Benchable | 0,05 $ |
| Latence moyenne par benchmark — Benchable | 25 min 19 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Nemotron 3 Ultra (550B A55B) ressort surtout sur le suivi d’instructions et la classification d’e-mails dans Benchable, où il atteint le meilleur niveau observé du panel. Son score PinchBench OpenClaw le place aussi dans le top 10 en agentique, sur un ensemble de tâches orientées action. La fenêtre de contexte d’environ 1,0 M de tokens constitue un atout concret pour traiter de très longs documents, des corpus internes ou des historiques étendus. La licence open-weights avec usage commercial autorisé renforce son intérêt pour des déploiements contrôlés, tandis que son tarif minimal gratuit le classe parmi les options les plus économiques de sa catégorie.
Limites et points d'attention. Les résultats sont moins homogènes dès que les évaluations s’éloignent de ses meilleurs cas d’usage. LiveBench: Coding (programmation) et LiveBench: IF (suivi d’instructions) le placent plutôt en milieu de tableau, loin des modèles haut de gamme les mieux classés. Le benchmark Hallucinations reste également un point de vigilance, avec un rang médian malgré un score élevé. Arena text le situe nettement derrière les modèles les plus compétitifs en préférence utilisateur. Profil pertinent pour des usages à très long contexte, des workflows agentiques et des scénarios où coût, licence ouverte et déploiement commercial priment sur la performance maximale en code ou en conversation générale.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).