Llama 3.1 Nemotron Ultra 253B v1

Llama 3.1 Nemotron Ultra 253B v1 est un LLM de NVIDIA publié le 7 avril 2025, sous licence Llama 3.1 Community License avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération probablement dépassée par les modèles haut de gamme…

Llama 3.1 Nemotron Ultra 253B v1 est un LLM de NVIDIA publié le 7 avril 2025, sous licence Llama 3.1 Community License avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération probablement dépassée par les modèles haut de gamme plus récents.

Le modèle se distingue surtout par son format massif, 253 milliards de paramètres, et par une fenêtre de contexte de 131 072 tokens, importante pour sa période. Ses connaissances s’arrêtent au 1er décembre 2023, ce qui limite sa pertinence sur les événements, outils et standards apparus ensuite.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurNVIDIA
LicenceLlama 3.1 Community License (poids non ouverts)
Date de sortie7 avril 2025
Connaissances jusqu'à2023-12-01
Multimodalnon
Paramètres253 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
MATH-50097,0 %8ᵉ / 31llm-statsAuto-déclaré
IFEval89,5 %21ᵉ / 65llm-statsAuto-déclaré
GPQA76,0 %87ᵉ / 213llm-statsAuto-déclaré
BFCL v274,1 %2ᵉ / 5llm-statsAuto-déclaré
AIME 202572,5 %77ᵉ / 108llm-statsAuto-déclaré
LiveCodeBench66,3 %25ᵉ / 72llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Classements Arena (Elo)

CatégorieEloRang
Arena Text1347178ᵉ

Notre analyse

Forces. À sa sortie, Llama 3.1 Nemotron Ultra 253B v1 se situait dans le haut du panier de sa génération sur GPQA (questions scientifiques difficiles), avec une place dans le top 12% des 84 LLM comparables sur une fenêtre de ±9 mois. Cette performance indique un positionnement solide sur le raisonnement de niveau avancé pour son époque. Sa très grande fenêtre de contexte constituait aussi un atout concret pour traiter de longs documents, suivre des échanges étendus ou maintenir davantage d’informations dans une même requête. Les données disponibles reposent sur 3 sources concordantes, ce qui rend son positionnement public relativement bien recoupé.

Limites et points d'attention. Son ancienneté est le principal frein : environ un an représente un cycle très long dans l’IA générative, et ses performances sont aujourd’hui probablement largement dépassées par les modèles frontière récents. Il est aussi souvent retiré du catalogue de l’éditeur à ce stade de maturité. Son classement Arena text le place loin du tout premier plan dans les évaluations conversationnelles publiques. La licence communautaire Llama 3.1 avec poids non ouverts limite également les possibilités d’audit, de modification et de déploiement autonome. Enfin, l’arrêt des connaissances au 1er décembre 2023 impose une prudence nette sur les sujets récents.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai).