Llama 3.1-405B

Llama 3.1-405B est un LLM de Meta sorti le 23 juillet 2024, avec 405 milliards de paramètres. Environ deux ans plus tard, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes haut de gamme actuels.

Son principal marqueur reste l’ampleur de son entraînement : 3,8 × 10²⁵ FLOP, soit environ 10,6 millions d’heures-GPU H100, l’équivalent d’environ 4 900 GPU H100 mobilisés pendant trois mois. Le coût estimé atteint ~52,9 millions de dollars (USD 2023), un niveau qui illustre l’ambition industrielle du modèle.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meta
Date de sortie	23 juillet 2024
Paramètres	405 milliards

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	50,9 %	78ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	49,8 %	47ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	9,7 %	79ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Llama 3.1-405B51 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Llama 3.1-405B50 %

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	3,8 × 10²⁵ FLOP
Taille du jeu d'entraînement	1,6 × 10¹³
Jeu de données	Llama 3 dataset
Coût d'entraînement estimé	≈ 52 885 434 $ (USD 2023)
Matériel	NVIDIA H100 SXM5 80GB
Nombre de puces	16 384
Puissance électrique	22 622 532 W
Durée d'entraînement	2 142 h
Pays	United States of America

Notre analyse

Forces. À sa sortie, Llama 3.1-405B figurait dans le top 10% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Ce positionnement indique un modèle particulièrement compétitif, pour son époque, sur le raisonnement scientifique exigeant. Ses résultats sur MATH level 5 le placent aussi dans une zone solide du paysage de 2024, avec une capacité notable à traiter des problèmes mathématiques difficiles, même si le classement n’en fait pas un leader absolu.

Limites et points d'attention. L’ancienneté du modèle pèse lourd : près de deux ans représentent un cycle très long dans l’IA, et ses performances sont aujourd’hui probablement largement dépassées par les modèles frontière. Il est aussi souvent retiré du catalogue de l’éditeur dans ce type de cycle produit. Son résultat faible sur OTIS Mock AIME 2024-2025, orienté olympiades de mathématiques niveau lycée, signale une limite nette sur les problèmes très compétitifs et structurés. L’intérêt historique reste toutefois fort, car l’entraînement a mobilisé un volume de calcul massif, environ 10,6 millions d’heures-GPU H100, pour un coût estimé à ~52,9 millions de dollars.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Llama 3.1-405B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast