Llama 3.3 70B

Llama 3.3 70B est un LLM de Meta, publié le 6 décembre 2024, avec 70 milliards de paramètres. Avec près de deux ans d'ancienneté, il appartient déjà à une génération très datée à l'échelle de l'IA, à comparer surtout aux modèles sortis dans la même période plutôt qu'aux systèmes haut de…

Llama 3.3 70B est un LLM de Meta, publié le 6 décembre 2024, avec 70 milliards de paramètres. Avec près de deux ans d'ancienneté, il appartient déjà à une génération très datée à l'échelle de l'IA, à comparer surtout aux modèles sortis dans la même période plutôt qu'aux systèmes haut de gamme actuels.

Son entraînement reste l'élément le plus marquant de la fiche : 6,9 × 10²⁴ FLOP, soit environ 1,9 million d'heures-GPU H100, l'équivalent de 880 GPU H100 mobilisés pendant trois mois. À sa sortie, Llama 3.3 70B se situait dans le top 22% des LLM de sa génération sur GPQA diamond.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeta
Date de sortie6 décembre 2024
Paramètres70 milliards

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond47,4 %87ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 541,6 %53ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20255,1 %91ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Llama 3.3 70B47 %

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Llama 3.3 70B42 %

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement6,9 × 10²⁴ FLOP
Taille du jeu d'entraînement1,5 × 10¹³
Jeu de donnéesUnspecified unreleased
MatérielNVIDIA H100 SXM5 80GB
PaysUnited States of America

Notre analyse

Forces. Llama 3.3 70B affichait à sa sortie un niveau solide sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, où il se plaçait dans le haut du panier des LLM de sa période. Son score sur MATH level 5 le positionnait plutôt en milieu de tableau, ce qui indique une capacité raisonnable sur des problèmes mathématiques structurés, sans atteindre les meilleurs modèles spécialisés ou plus récents. Son format à 70 milliards de paramètres en faisait un grand modèle généraliste pour sa génération, avec un effort d'entraînement substantiel documenté.

Limites et points d'attention. L'ancienneté est le principal facteur de décote : près de deux ans représentent un écart très long dans l'IA générative, et les performances de Llama 3.3 70B sont aujourd'hui probablement largement dépassées par les modèles haut de gamme récents. Le résultat très faible sur OTIS Mock AIME 2024-2025 montre une limite nette sur les olympiades de mathématiques de niveau lycée. Le modèle peut aussi être souvent absent des catalogues actuels de l'éditeur. L'effort d'entraînement reste toutefois notable, avec 6,9 × 10²⁴ FLOP et environ 1,9 million d'heures-GPU H100, mais aucun coût en dollars n'est fourni dans les données disponibles.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.