Llama 3.3 70B

Llama 3.3 70B est un LLM de Meta, publié le 6 décembre 2024, avec 70 milliards de paramètres. Avec près de deux ans d'ancienneté, il appartient déjà à une génération très datée à l'échelle de l'IA, à comparer surtout aux modèles sortis dans la même période plutôt qu'aux systèmes haut de…

Son entraînement reste l'élément le plus marquant de la fiche : 6,9 × 10²⁴ FLOP, soit environ 1,9 million d'heures-GPU H100, l'équivalent de 880 GPU H100 mobilisés pendant trois mois. À sa sortie, Llama 3.3 70B se situait dans le top 22% des LLM de sa génération sur GPQA diamond.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meta
Date de sortie	6 décembre 2024
Paramètres	70 milliards

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	47,4 %	87ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	41,6 %	53ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	5,1 %	91ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Llama 3.3 70B47 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Llama 3.3 70B42 %

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	6,9 × 10²⁴ FLOP
Taille du jeu d'entraînement	1,5 × 10¹³
Jeu de données	Unspecified unreleased
Matériel	NVIDIA H100 SXM5 80GB
Pays	United States of America

Notre analyse

Forces. Llama 3.3 70B affichait à sa sortie un niveau solide sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, où il se plaçait dans le haut du panier des LLM de sa période. Son score sur MATH level 5 le positionnait plutôt en milieu de tableau, ce qui indique une capacité raisonnable sur des problèmes mathématiques structurés, sans atteindre les meilleurs modèles spécialisés ou plus récents. Son format à 70 milliards de paramètres en faisait un grand modèle généraliste pour sa génération, avec un effort d'entraînement substantiel documenté.

Limites et points d'attention. L'ancienneté est le principal facteur de décote : près de deux ans représentent un écart très long dans l'IA générative, et les performances de Llama 3.3 70B sont aujourd'hui probablement largement dépassées par les modèles haut de gamme récents. Le résultat très faible sur OTIS Mock AIME 2024-2025 montre une limite nette sur les olympiades de mathématiques de niveau lycée. Le modèle peut aussi être souvent absent des catalogues actuels de l'éditeur. L'effort d'entraînement reste toutefois notable, avec 6,9 × 10²⁴ FLOP et environ 1,9 million d'heures-GPU H100, mais aucun coût en dollars n'est fourni dans les données disponibles.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Llama 3.3 70B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast