Llama 3.2 3B Instruct
Llama 3.2 3B Instruct est un LLM de Meta sorti le 25 septembre 2024, sous Llama 3.2 Community License, avec des poids non ouverts. Son format de 3 milliards de paramètres le place dans la catégorie des modèles compacts, avec une fenêtre de contexte très longue de 131 072 tokens.
Llama 3.2 3B Instruct est un LLM de Meta sorti le 25 septembre 2024, sous Llama 3.2 Community License, avec des poids non ouverts. Son format de 3 milliards de paramètres le place dans la catégorie des modèles compacts, avec une fenêtre de contexte très longue de 131 072 tokens.
Avec près de deux ans d’ancienneté, Llama 3.2 3B Instruct appartient déjà à une génération lointaine à l’échelle de l’IA. À sa sortie, il se situait dans le top 82% sur GPQA parmi les LLM de sa période, tandis que son tarif gratuit le rendait extrêmement économique face aux modèles similaires.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meta |
| Licence | Llama 3.2 Community License (poids non ouverts) |
| Date de sortie | 25 septembre 2024 |
| Connaissances jusqu'à | 2023-12-31 |
| Multimodal | non |
| Paramètres | 3 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 88,0 % | 240ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 78,0 % | 183ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 76,0 % | 219ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 44,0 % | 227ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 26,3 % | 212ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 20,4 % | 217ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 11,0 % | 230ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 4,0 % | 202ᵉ / 217 | benchable | ✅ Mesuré |
| ARC-C | 78,6 % | 17ᵉ / 34 | llm-stats | Auto-déclaré |
| GSM8k | 77,7 % | 39ᵉ / 47 | llm-stats | Auto-déclaré |
| IFEval | 77,4 % | 56ᵉ / 65 | llm-stats | Auto-déclaré |
| HellaSwag | 69,8 % | 24ᵉ / 27 | llm-stats | Auto-déclaré |
| BFCL v2 | 67,0 % | 4ᵉ / 5 | llm-stats | Auto-déclaré |
| MMLU | 63,4 % | 94ᵉ / 98 | llm-stats | Auto-déclaré |
| MGSM | 58,2 % | 26ᵉ / 30 | llm-stats | Auto-déclaré |
| MATH | 48,0 % | 58ᵉ / 70 | llm-stats | Auto-déclaré |
| Nexus | 34,3 % | 4ᵉ / 4 | llm-stats | Auto-déclaré |
| GPQA | 32,8 % | 197ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Hallucinations (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Venice | gratuit | gratuit | n.d. |
| Cloudflare | 0,0509 $ | 0,335 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 4 min 23 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Llama 3.2 3B Instruct se distingue d’abord par son coût nul en entrée comme en sortie, soit un positionnement 100% en dessous de la moyenne des LLM similaires. Sa fenêtre de contexte de 131 072 tokens reste un trait notable pour un modèle compact de 3 milliards de paramètres. Dans les mesures Benchable disponibles, son meilleur signal concerne Email Classification (classification d’e-mails), où il obtient son score le plus solide. Les résultats en Hallucinations et en General Knowledge indiquent aussi une base utilisable pour des tâches simples de compréhension ou de restitution, surtout replacée dans le contexte de sa génération.
Limites et points d'attention. Les classements Benchable placent Llama 3.2 3B Instruct dans le bas du tableau sur la plupart des dimensions mesurées, notamment Instruction Following, Reasoning et Ethics. Ces faiblesses limitent fortement son intérêt pour les tâches exigeant un suivi précis de consignes, un raisonnement fiable ou des arbitrages sensibles. Son arrêt des connaissances au 31 décembre 2023 renforce son décalage avec les besoins actuels. Avec près de deux ans d’ancienneté, ses performances sont aujourd’hui largement dépassées par les modèles plus récents, et ce type de modèle est souvent retiré des catalogues éditeur. Sa licence communautaire, avec poids non ouverts, ajoute enfin une contrainte pour les usages nécessitant une pleine ouverture technique.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).