Llama 3-8B

Llama 3-8B est un LLM de Meta publié le 18 avril 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, où les écarts de performance se creusent rapidement d’une vague de modèles à l’autre.

Son intérêt principal est historique: à sa sortie, il se situait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Les évaluations disponibles le montrent toutefois très en retrait face aux modèles plus récents.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meta
Date de sortie	18 avril 2024

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	26,1 %	127ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	6,1 %	81ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	0,8 %	109ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Llama 3-8B26 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Llama 3-8B6 %

Notre analyse

Forces. Llama 3-8B conserve surtout une valeur de repère pour comprendre le niveau des LLM compacts publiés au printemps 2024. À sa sortie, son classement relatif sur GPQA diamond le plaçait dans le haut de sa cohorte de modèles sortis sur la même période, ce qui indique un positionnement compétitif pour son époque sur des questions scientifiques avancées. Cette lecture historique est importante, car ses résultats absolus actuels ne reflètent plus le rythme du marché: le modèle illustre davantage un jalon de génération qu’un standard contemporain.

Limites et points d’attention. Ses performances mesurées sont aujourd’hui faibles sur les benchmarks disponibles. GPQA diamond le place presque en bas du classement global, MATH level 5 montre de fortes limites en mathématiques difficiles, et OTIS Mock AIME 2024-2025 indique une quasi-absence de robustesse sur des problèmes d’olympiades de mathématiques de niveau lycée. Son ancienneté, très longue pour l’IA générative, le rend probablement dépassé par les modèles récents et le situe dans une catégorie souvent retirée des catalogues d’éditeurs. L’analyse repose aussi sur une couverture limitée, avec une seule source de données concordante.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Llama 3-8B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast