Llama 3.1-70B

Llama 3.1-70B est un LLM publié par Meta le 23 juillet 2024. Avec environ deux ans d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, un domaine où les modèles sont rapidement remplacés dans les catalogues et les comparatifs.

Son intérêt historique tient surtout à sa position au moment de sa sortie : sur GPQA diamond, un test de questions scientifiques de niveau doctorat, il se situait dans le haut du panier des LLM de sa génération. La fiche sert donc surtout à comprendre son niveau relatif en 2024, plus que son intérêt face aux modèles actuels.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meta
Date de sortie	23 juillet 2024

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	44,2 %	95ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	36,7 %	58ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	3,6 %	97ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Llama 3.1-70B44 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Llama 3.1-70B37 %

Notre analyse

Forces. Llama 3.1-70B se distingue surtout par son résultat sur GPQA diamond, où il figurait à sa sortie dans le top 21% des LLM comparables de la même période. Ce point indique un niveau solide, pour son époque, sur des questions scientifiques exigeantes. Sur MATH level 5, il apparaît plutôt en milieu de tableau, ce qui suggère une compétence mathématique réelle mais pas dominante parmi les modèles évalués. Son éditeur, Meta, le place aussi dans une lignée de modèles importants de l’été 2024, même si les données disponibles ici ne documentent qu’une seule source concordante.

Limites et points d'attention. L’ancienneté est le principal point faible : près de deux ans représentent un écart très important dans l’IA générative, et ce modèle est probablement largement dépassé par les modèles haut de gamme actuels. Son résultat sur OTIS Mock AIME 2024-2025, centré sur des problèmes d’olympiades de mathématiques de niveau lycée, est très faible dans le classement disponible. Les données retenues ne fournissent pas de chiffres d’entraînement, de coût ou d’équivalent GPU, ce qui limite l’analyse de son effort industriel au-delà des benchmarks publiés.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Llama 3.1-70B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast