Nemotron 3 Super (120B A12B)
Nemotron 3 Super (120B A12B) est un LLM open-weights de NVIDIA, publié le 11 mars 2026 sous NVIDIA Open Model License Agreement, avec usage commercial autorisé. Il combine un grand format de 120 milliards de paramètres avec une fenêtre de contexte très longue de 1 000 000 tokens.
Nemotron 3 Super (120B A12B) est un LLM open-weights de NVIDIA, publié le 11 mars 2026 sous NVIDIA Open Model License Agreement, avec usage commercial autorisé. Il combine un grand format de 120 milliards de paramètres avec une fenêtre de contexte très longue de 1 000 000 tokens.
Son positionnement le distingue surtout par le coût: l’entrée et la sortie sont indiquées comme gratuites par million de tokens, soit 100% sous la moyenne des LLM similaires. À sa sortie, il se situait dans le top 24% de sa génération sur GPQA, avec des données corroborées par six sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | NVIDIA |
| Licence | NVIDIA Open Model License Agreement (open-weights, usage commercial autorisé) |
| Date de sortie | 11 mars 2026 |
| Connaissances jusqu'à | 2025-06-01 |
| Multimodal | non |
| Paramètres | 120 milliards |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 94,0 % | 61ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 91,5 % | 201ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 89,0 % | 236ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 86,0 % | 168ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 83,0 % | 144ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 80,0 % | 174ᵉ / 248 | benchable | ✅ Mesuré |
| LiveBench: Coding | 54,1 % | 75ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 42,2 % | 46ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Mathematics | 36,4 % | 76ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 34,4 % | 72ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 33,0 % | 201ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Global average | 32,5 % | 76ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 30,0 % | 75ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 28,4 % | 56ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 23,0 % | 64ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 21,2 % | 76ᵉ / 76 | livebench | ✅ Mesuré |
| HMMT 2025 | 94,7 % | 8ᵉ / 33 | llm-stats | Auto-déclaré |
| RULER | 91,8 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| AIME 2025 | 90,2 % | 43ᵉ / 108 | llm-stats | Auto-déclaré |
| WMT24++ | 86,7 % | 1ᵉ / 23 | llm-stats | Auto-déclaré |
| MMLU-Pro | 83,7 % | 28ᵉ / 125 | llm-stats | Auto-déclaré |
| GPQA | 82,7 % | 58ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 81,2 % | 7ᵉ / 72 | llm-stats | Auto-déclaré |
| MMLU-ProX | 79,4 % | 12ᵉ / 32 | llm-stats | Auto-déclaré |
| Arena-Hard v2 | 73,9 % | 6ᵉ / 16 | llm-stats | Auto-déclaré |
| IFBench | 72,6 % | 12ᵉ / 27 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 64,4 % | 28ᵉ / 34 | llm-stats | Auto-déclaré |
| Tau2 Retail | 62,8 % | 23ᵉ / 25 | llm-stats | Auto-déclaré |
| AA-LCR | 58,3 % | 11ᵉ / 14 | llm-stats | Auto-déclaré |
| Tau2 Airline | 56,2 % | 17ᵉ / 22 | llm-stats | Auto-déclaré |
| Multi-Challenge | 55,2 % | 12ᵉ / 28 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 53,7 % | 82ᵉ / 100 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 45,8 % | 30ᵉ / 32 | llm-stats | Auto-déclaré |
| SciCode | 42,0 % | 10ᵉ / 18 | llm-stats | Auto-déclaré |
| Bird-SQL (dev) | 41,8 % | 5ᵉ / 7 | llm-stats | Auto-déclaré |
| BrowseComp | 31,3 % | 47ᵉ / 51 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 31,0 % | 48ᵉ / 48 | llm-stats | Auto-déclaré |
| Terminal-Bench | 25,8 % | 22ᵉ / 25 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 22,8 % | 48ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : Reasoning (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1362 | 162ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| NVIDIA | gratuit | gratuit | n.d. |
| DeepInfra | 0,085 $ | 0,4 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 0 $ |
| Durée d'exécution — PinchBench | 6 h 02 min |
| Coût moyen par benchmark — Benchable | 0,05 $ |
| Latence moyenne par benchmark — Benchable | 5 min 24 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Nemotron 3 Super (120B A12B) affiche ses meilleurs signaux sur Ethics (Baseline) et Reasoning (Baseline), deux mesures où il se place dans la partie solide du classement Benchable. General Knowledge (Baseline) reste élevé en score brut, ce qui indique une base de connaissances généraliste robuste jusqu’au 1er juin 2025. Sa fenêtre de contexte de 1,0 M tokens constitue un atout concret pour traiter de très longs documents, des corpus internes ou des historiques étendus sans découpage excessif. Le modèle garde aussi un intérêt économique net: sa tarification annoncée comme gratuite en entrée et en sortie le place très en dessous des LLM comparables.
Limites et points d'attention. Les rangs Benchable montrent un profil inégal: Email Classification, Hallucinations et Mathematics restent loin des premières places malgré des scores corrects. Le classement Arena text le situe également plutôt dans le milieu bas du tableau, ce qui limite son positionnement face aux modèles haut de gamme pour la qualité conversationnelle perçue. Le statut open-weights avec usage commercial autorisé favorise les déploiements contrôlés, mais n’efface pas le besoin d’évaluation interne sur les erreurs factuelles et les tâches spécialisées. Le modèle paraît surtout adapté aux usages à grand contexte et à coût minimal, lorsque la priorité n’est pas d’obtenir les meilleurs résultats absolus.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).