Llama 3.3 70B
Llama 3.3 70B est un LLM de Meta, publié le 6 décembre 2024, avec 70 milliards de paramètres. Avec près de deux ans d'ancienneté, il appartient déjà à une génération très datée à l'échelle de l'IA, à comparer surtout aux modèles sortis dans la même période plutôt qu'aux systèmes haut de…
Llama 3.3 70B est un LLM de Meta, publié le 6 décembre 2024, avec 70 milliards de paramètres. Avec près de deux ans d'ancienneté, il appartient déjà à une génération très datée à l'échelle de l'IA, à comparer surtout aux modèles sortis dans la même période plutôt qu'aux systèmes haut de gamme actuels.
Son entraînement reste l'élément le plus marquant de la fiche : 6,9 × 10²⁴ FLOP, soit environ 1,9 million d'heures-GPU H100, l'équivalent de 880 GPU H100 mobilisés pendant trois mois. À sa sortie, Llama 3.3 70B se situait dans le top 22% des LLM de sa génération sur GPQA diamond.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meta |
| Date de sortie | 6 décembre 2024 |
| Paramètres | 70 milliards |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 47,4 % | 87ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 41,6 % | 53ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 5,1 % | 91ᵉ / 111 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: GPQA diamond
Epoch: MATH level 5
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 6,9 × 10²⁴ FLOP |
| Taille du jeu d'entraînement | 1,5 × 10¹³ |
| Jeu de données | Unspecified unreleased |
| Matériel | NVIDIA H100 SXM5 80GB |
| Pays | United States of America |
Notre analyse
Forces. Llama 3.3 70B affichait à sa sortie un niveau solide sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, où il se plaçait dans le haut du panier des LLM de sa période. Son score sur MATH level 5 le positionnait plutôt en milieu de tableau, ce qui indique une capacité raisonnable sur des problèmes mathématiques structurés, sans atteindre les meilleurs modèles spécialisés ou plus récents. Son format à 70 milliards de paramètres en faisait un grand modèle généraliste pour sa génération, avec un effort d'entraînement substantiel documenté.
Limites et points d'attention. L'ancienneté est le principal facteur de décote : près de deux ans représentent un écart très long dans l'IA générative, et les performances de Llama 3.3 70B sont aujourd'hui probablement largement dépassées par les modèles haut de gamme récents. Le résultat très faible sur OTIS Mock AIME 2024-2025 montre une limite nette sur les olympiades de mathématiques de niveau lycée. Le modèle peut aussi être souvent absent des catalogues actuels de l'éditeur. L'effort d'entraînement reste toutefois notable, avec 6,9 × 10²⁴ FLOP et environ 1,9 million d'heures-GPU H100, mais aucun coût en dollars n'est fourni dans les données disponibles.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.