Llama 3-8B
Llama 3-8B est un LLM de Meta publié le 18 avril 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, où les écarts de performance se creusent rapidement d’une vague de modèles à l’autre.
Llama 3-8B est un LLM de Meta publié le 18 avril 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, où les écarts de performance se creusent rapidement d’une vague de modèles à l’autre.
Son intérêt principal est historique: à sa sortie, il se situait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Les évaluations disponibles le montrent toutefois très en retrait face aux modèles plus récents.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meta |
| Date de sortie | 18 avril 2024 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 26,1 % | 127ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 6,1 % | 81ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 0,8 % | 109ᵉ / 111 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: GPQA diamond
Epoch: MATH level 5
Notre analyse
Forces. Llama 3-8B conserve surtout une valeur de repère pour comprendre le niveau des LLM compacts publiés au printemps 2024. À sa sortie, son classement relatif sur GPQA diamond le plaçait dans le haut de sa cohorte de modèles sortis sur la même période, ce qui indique un positionnement compétitif pour son époque sur des questions scientifiques avancées. Cette lecture historique est importante, car ses résultats absolus actuels ne reflètent plus le rythme du marché: le modèle illustre davantage un jalon de génération qu’un standard contemporain.
Limites et points d’attention. Ses performances mesurées sont aujourd’hui faibles sur les benchmarks disponibles. GPQA diamond le place presque en bas du classement global, MATH level 5 montre de fortes limites en mathématiques difficiles, et OTIS Mock AIME 2024-2025 indique une quasi-absence de robustesse sur des problèmes d’olympiades de mathématiques de niveau lycée. Son ancienneté, très longue pour l’IA générative, le rend probablement dépassé par les modèles récents et le situe dans une catégorie souvent retirée des catalogues d’éditeurs. L’analyse repose aussi sur une couverture limitée, avec une seule source de données concordante.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.