Llama 3.1 8B Instruct
Llama 3.1 8B Instruct est un LLM de Meta sorti le 23 juillet 2024, sous Llama 3.1 Community License, avec des poids non ouverts. Avec 8 milliards de paramètres et une fenêtre de contexte de 131 072 tokens, il appartenait à la catégorie des modèles compacts capables de traiter de longs…
Llama 3.1 8B Instruct est un LLM de Meta sorti le 23 juillet 2024, sous Llama 3.1 Community License, avec des poids non ouverts. Avec 8 milliards de paramètres et une fenêtre de contexte de 131 072 tokens, il appartenait à la catégorie des modèles compacts capables de traiter de longs prompts.
Son âge, environ deux ans, est très élevé à l’échelle de l’IA générative. Llama 3.1 8B Instruct doit donc être lu comme un modèle de sa période, d’autant que ses tarifs restent très bas, environ 99% sous la moyenne des LLM similaires et très loin des prix des modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meta |
| Licence | Llama 3.1 Community License (poids non ouverts) |
| Date de sortie | 23 juillet 2024 |
| Connaissances jusqu'à | 2023-12-31 |
| Multimodal | non |
| Paramètres | 8 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 98,5 % | 160ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 95,0 % | 207ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 87,5 % | 209ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 69,0 % | 201ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 32,2 % | 205ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 18,0 % | 221ᵉ / 239 | benchable | ✅ Mesuré |
| ARC-C | 83,4 % | 16ᵉ / 34 | llm-stats | Auto-déclaré |
| API-Bank | 82,6 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| IFEval | 80,4 % | 52ᵉ / 65 | llm-stats | Auto-déclaré |
| BFCL | 76,1 % | 3ᵉ / 11 | llm-stats | Auto-déclaré |
| MMLU (CoT) | 73,0 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| HumanEval | 72,6 % | 53ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU | 69,4 % | 83ᵉ / 98 | llm-stats | Auto-déclaré |
| Multilingual MGSM (CoT) | 68,9 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| DROP | 59,5 % | 23ᵉ / 29 | llm-stats | Auto-déclaré |
| Multipl-E MBPP | 52,4 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| MATH (CoT) | 51,9 % | 6ᵉ / 6 | llm-stats | Auto-déclaré |
| Multipl-E HumanEval | 50,8 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| MMLU-Pro | 48,3 % | 112ᵉ / 125 | llm-stats | Auto-déclaré |
| Nexus | 38,5 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| GPQA | 30,4 % | 203ᵉ / 213 | llm-stats | Auto-déclaré |
| Gorilla Benchmark API Bench | 8,2 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : Email Classification (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,02 $ | 0,03 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 99 % en dessous de la moyenne des LLM similaires, et 241,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 5 min 50 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. À sa sortie, Llama 3.1 8B Instruct figurait dans le top 88% des LLM de sa génération sur GPQA, parmi 25 modèles comparables de la même période. Ses meilleurs résultats Benchable se situent sur Ethics, Email Classification et General Knowledge, où il atteint des niveaux solides pour un modèle de 8 milliards de paramètres. Son principal intérêt économique reste net : les prix d’entrée et de sortie le placent dans une zone très économique, avec un écart d’environ 241,7 fois face aux modèles frontière.
Limites et points d'attention. Les résultats Benchable montrent un décrochage marqué sur Reasoning et Instruction Following, deux capacités devenues centrales dans les usages actuels des LLM. Le Coding reste en retrait par rapport aux standards plus récents. Son horizon de connaissances s’arrête au 31 décembre 2023, ce qui limite l’analyse d’événements, d’outils et de bibliothèques apparus ensuite. En 2026, Llama 3.1 8B Instruct est largement dépassé par les modèles plus récents de sa catégorie et les modèles de cette période sont souvent retirés des catalogues d’éditeurs.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).