Llama 3.1-70B

Llama 3.1-70B est un LLM publié par Meta le 23 juillet 2024. Avec environ deux ans d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, un domaine où les modèles sont rapidement remplacés dans les catalogues et les comparatifs.

Llama 3.1-70B est un LLM publié par Meta le 23 juillet 2024. Avec environ deux ans d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, un domaine où les modèles sont rapidement remplacés dans les catalogues et les comparatifs.

Son intérêt historique tient surtout à sa position au moment de sa sortie : sur GPQA diamond, un test de questions scientifiques de niveau doctorat, il se situait dans le haut du panier des LLM de sa génération. La fiche sert donc surtout à comprendre son niveau relatif en 2024, plus que son intérêt face aux modèles actuels.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeta
Date de sortie23 juillet 2024

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond44,2 %95ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 536,7 %58ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20253,6 %97ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Llama 3.1-70B44 %

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Llama 3.1-70B37 %

Notre analyse

Forces. Llama 3.1-70B se distingue surtout par son résultat sur GPQA diamond, où il figurait à sa sortie dans le top 21% des LLM comparables de la même période. Ce point indique un niveau solide, pour son époque, sur des questions scientifiques exigeantes. Sur MATH level 5, il apparaît plutôt en milieu de tableau, ce qui suggère une compétence mathématique réelle mais pas dominante parmi les modèles évalués. Son éditeur, Meta, le place aussi dans une lignée de modèles importants de l’été 2024, même si les données disponibles ici ne documentent qu’une seule source concordante.

Limites et points d'attention. L’ancienneté est le principal point faible : près de deux ans représentent un écart très important dans l’IA générative, et ce modèle est probablement largement dépassé par les modèles haut de gamme actuels. Son résultat sur OTIS Mock AIME 2024-2025, centré sur des problèmes d’olympiades de mathématiques de niveau lycée, est très faible dans le classement disponible. Les données retenues ne fournissent pas de chiffres d’entraînement, de coût ou d’équivalent GPU, ce qui limite l’analyse de son effort industriel au-delà des benchmarks publiés.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.