Llama 2-70B

Llama 2-70B est un LLM de Meta sorti le 18 juillet 2023, avec 70 milliards de paramètres. À près de trois ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, où les modèles sont rapidement remplacés.

Son entraînement reste l’élément le plus marquant de la fiche : 8,1 × 10²³ FLOP, soit environ 225 000 heures-GPU H100, l’équivalent d’environ 100 GPU H100 mobilisés pendant trois mois. Le coût estimé atteint ~1,1 million de dollars USD 2023.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meta
Date de sortie	18 juillet 2023
Paramètres	70 milliards

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	26,3 %	126ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	3,3 %	84ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	0,0 %	111ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Llama 2-70B26 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Llama 2-70B3 %

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	8,1 × 10²³ FLOP
Taille du jeu d'entraînement	2,0 × 10¹²
Jeu de données	Llama 2 dataset
Coût d'entraînement estimé	≈ 1 102 561 $ (USD 2023)
Matériel	NVIDIA A100 SXM4 80 GB
Nombre de puces	1 000
Puissance électrique	795 557 W
Durée d'entraînement	1 728 h
Pays	United States of America

Notre analyse

Forces. Llama 2-70B se distingue surtout par son échelle pour 2023 : 70 milliards de paramètres et un effort d’entraînement très important pour sa période. Parmi les mesures disponibles, GPQA diamond, qui évalue des questions scientifiques de niveau doctorat, constitue son meilleur signal relatif, même si le résultat le place loin du haut de tableau. À sa sortie, l’intérêt du modèle tenait donc moins à des performances spécialisées extrêmes qu’à son statut de grand LLM Meta de génération 2023, entraîné avec un budget de calcul déjà industriel.

Limites et points d'attention. Les benchmarks fournis montrent des faiblesses nettes sur le raisonnement scientifique et mathématique exigeant : MATH level 5 est en toute fin de classement, et OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques niveau lycée, tombe au dernier rang avec un score nul. Avec près de trois ans d’ancienneté, Llama 2-70B est aujourd’hui largement dépassé par les modèles haut de gamme récents et souvent plus proposé par l’éditeur. La couverture repose aussi sur une seule source de données concordante, ce qui limite la robustesse comparative de la fiche.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Llama 2-70B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast