Llama 3.1-8B

Llama 3.1-8B est un LLM de Meta sorti le 23 juillet 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, où les écarts de performance se creusent rapidement.

Llama 3.1-8B est un LLM de Meta sorti le 23 juillet 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, où les écarts de performance se creusent rapidement.

Son intérêt principal est de documenter le niveau d’un modèle Meta de sa période. À sa sortie, son résultat sur GPQA diamond le plaçait dans le haut de sa génération, mais les mesures disponibles indiquent aujourd’hui un modèle largement distancé sur les tâches scientifiques et mathématiques exigeantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeta
Date de sortie23 juillet 2024

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond25,9 %128ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 522,9 %65ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20252,5 %99ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Llama 3.1-8B26 %

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Llama 3.1-8B23 %

Notre analyse

Forces. Llama 3.1-8B se distingue surtout par son positionnement à sa sortie. Sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, il figurait dans le top 92% des LLM de la même période, ce qui le situait alors dans le haut du panier de sa génération. Cette performance relative donne une lecture utile de son statut historique, davantage que de sa compétitivité actuelle. Parmi les mesures fournies, MATH level 5 constitue aussi un repère pertinent, car il teste des problèmes mathématiques difficiles et permet de situer le modèle sur un terrain plus structuré que la simple génération de texte.

Limites et points d'attention. Les résultats actuels placent Llama 3.1-8B très bas dans les classements disponibles. Il apparaît en queue de classement sur GPQA diamond, reste nettement distancé sur MATH level 5 et obtient un résultat très faible sur OTIS Mock AIME 2024-2025, qui évalue des problèmes d’olympiades mathématiques de niveau lycée. Son ancienneté pèse fortement: à l’échelle de l’IA, près de deux ans représentent un cycle très long, et ce type de modèle est probablement dépassé, voire souvent retiré du catalogue de l’éditeur. La couverture repose sur une seule source concordante, ce qui limite aussi la robustesse de l’évaluation comparative.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.