Llama 3.1-8B
Llama 3.1-8B est un LLM de Meta sorti le 23 juillet 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, où les écarts de performance se creusent rapidement.
Llama 3.1-8B est un LLM de Meta sorti le 23 juillet 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, où les écarts de performance se creusent rapidement.
Son intérêt principal est de documenter le niveau d’un modèle Meta de sa période. À sa sortie, son résultat sur GPQA diamond le plaçait dans le haut de sa génération, mais les mesures disponibles indiquent aujourd’hui un modèle largement distancé sur les tâches scientifiques et mathématiques exigeantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meta |
| Date de sortie | 23 juillet 2024 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 25,9 % | 128ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 22,9 % | 65ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 2,5 % | 99ᵉ / 111 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: GPQA diamond
Epoch: MATH level 5
Notre analyse
Forces. Llama 3.1-8B se distingue surtout par son positionnement à sa sortie. Sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, il figurait dans le top 92% des LLM de la même période, ce qui le situait alors dans le haut du panier de sa génération. Cette performance relative donne une lecture utile de son statut historique, davantage que de sa compétitivité actuelle. Parmi les mesures fournies, MATH level 5 constitue aussi un repère pertinent, car il teste des problèmes mathématiques difficiles et permet de situer le modèle sur un terrain plus structuré que la simple génération de texte.
Limites et points d'attention. Les résultats actuels placent Llama 3.1-8B très bas dans les classements disponibles. Il apparaît en queue de classement sur GPQA diamond, reste nettement distancé sur MATH level 5 et obtient un résultat très faible sur OTIS Mock AIME 2024-2025, qui évalue des problèmes d’olympiades mathématiques de niveau lycée. Son ancienneté pèse fortement: à l’échelle de l’IA, près de deux ans représentent un cycle très long, et ce type de modèle est probablement dépassé, voire souvent retiré du catalogue de l’éditeur. La couverture repose sur une seule source concordante, ce qui limite aussi la robustesse de l’évaluation comparative.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.