Llama 3-8B

Llama 3-8B est un LLM de Meta publié le 18 avril 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, où les écarts de performance se creusent rapidement d’une vague de modèles à l’autre.

Llama 3-8B est un LLM de Meta publié le 18 avril 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, où les écarts de performance se creusent rapidement d’une vague de modèles à l’autre.

Son intérêt principal est historique: à sa sortie, il se situait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Les évaluations disponibles le montrent toutefois très en retrait face aux modèles plus récents.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeta
Date de sortie18 avril 2024

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond26,1 %127ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 56,1 %81ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20250,8 %109ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Llama 3-8B26 %

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Llama 3-8B6 %

Notre analyse

Forces. Llama 3-8B conserve surtout une valeur de repère pour comprendre le niveau des LLM compacts publiés au printemps 2024. À sa sortie, son classement relatif sur GPQA diamond le plaçait dans le haut de sa cohorte de modèles sortis sur la même période, ce qui indique un positionnement compétitif pour son époque sur des questions scientifiques avancées. Cette lecture historique est importante, car ses résultats absolus actuels ne reflètent plus le rythme du marché: le modèle illustre davantage un jalon de génération qu’un standard contemporain.

Limites et points d’attention. Ses performances mesurées sont aujourd’hui faibles sur les benchmarks disponibles. GPQA diamond le place presque en bas du classement global, MATH level 5 montre de fortes limites en mathématiques difficiles, et OTIS Mock AIME 2024-2025 indique une quasi-absence de robustesse sur des problèmes d’olympiades de mathématiques de niveau lycée. Son ancienneté, très longue pour l’IA générative, le rend probablement dépassé par les modèles récents et le situe dans une catégorie souvent retirée des catalogues d’éditeurs. L’analyse repose aussi sur une couverture limitée, avec une seule source de données concordante.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.