Llama 3.1-8B

Llama 3.1-8B est un LLM de Meta sorti le 23 juillet 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, où les écarts de performance se creusent rapidement.

Son intérêt principal est de documenter le niveau d’un modèle Meta de sa période. À sa sortie, son résultat sur GPQA diamond le plaçait dans le haut de sa génération, mais les mesures disponibles indiquent aujourd’hui un modèle largement distancé sur les tâches scientifiques et mathématiques exigeantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meta
Date de sortie	23 juillet 2024

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	25,9 %	128ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	22,9 %	65ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	2,5 %	99ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Llama 3.1-8B26 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Llama 3.1-8B23 %

Notre analyse

Forces. Llama 3.1-8B se distingue surtout par son positionnement à sa sortie. Sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, il figurait dans le top 92% des LLM de la même période, ce qui le situait alors dans le haut du panier de sa génération. Cette performance relative donne une lecture utile de son statut historique, davantage que de sa compétitivité actuelle. Parmi les mesures fournies, MATH level 5 constitue aussi un repère pertinent, car il teste des problèmes mathématiques difficiles et permet de situer le modèle sur un terrain plus structuré que la simple génération de texte.

Limites et points d'attention. Les résultats actuels placent Llama 3.1-8B très bas dans les classements disponibles. Il apparaît en queue de classement sur GPQA diamond, reste nettement distancé sur MATH level 5 et obtient un résultat très faible sur OTIS Mock AIME 2024-2025, qui évalue des problèmes d’olympiades mathématiques de niveau lycée. Son ancienneté pèse fortement: à l’échelle de l’IA, près de deux ans représentent un cycle très long, et ce type de modèle est probablement dépassé, voire souvent retiré du catalogue de l’éditeur. La couverture repose sur une seule source concordante, ce qui limite aussi la robustesse de l’évaluation comparative.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Llama 3.1-8B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast