Llama 3.3 70B Instruct
Llama 3.3 70B Instruct est un LLM de Meta publié le 6 décembre 2024, sous Llama 3.3 Community License Agreement, avec des poids non ouverts. Avec 70 milliards de paramètres et une fenêtre de contexte de 131 072 tokens, il visait le segment des grands modèles instructifs capables de…
Llama 3.3 70B Instruct est un LLM de Meta publié le 6 décembre 2024, sous Llama 3.3 Community License Agreement, avec des poids non ouverts. Avec 70 milliards de paramètres et une fenêtre de contexte de 131 072 tokens, il visait le segment des grands modèles instructifs capables de traiter de longs échanges ou documents.
Le modèle est désormais ancien à l’échelle de l’IA, près de deux ans après sa sortie, avec des connaissances arrêtées au 31 décembre 2023. À son lancement, il se situait dans le top 36% des LLM de sa génération sur GPQA. Son positionnement reste marqué par un coût très économique, annoncé 100% sous la moyenne des LLM similaires.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meta |
| Licence | Llama 3.3 Community License Agreement (poids non ouverts) |
| Date de sortie | 6 décembre 2024 |
| Connaissances jusqu'à | 2023-12-31 |
| Multimodal | non |
| Paramètres | 70 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 8.6 | 127ᵉ / 136 |
| Math Index | 7.7 | 51ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 98,0 % | 143ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 64,0 % | 174ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 62,0 % | 128ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 58,0 % | 167ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 37,0 % | 219ᵉ / 248 | benchable | ✅ Mesuré |
| IFEval | 92,1 % | 9ᵉ / 65 | llm-stats | Auto-déclaré |
| MGSM | 91,1 % | 4ᵉ / 30 | llm-stats | Auto-déclaré |
| HumanEval | 88,4 % | 20ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU | 86,0 % | 31ᵉ / 98 | llm-stats | Auto-déclaré |
| BFCL v2 | 77,3 % | 1ᵉ / 5 | llm-stats | Auto-déclaré |
| MATH | 77,0 % | 23ᵉ / 70 | llm-stats | Auto-déclaré |
| MMLU-Pro | 68,9 % | 83ᵉ / 125 | llm-stats | Auto-déclaré |
| GPQA | 50,5 % | 155ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Venice | gratuit | gratuit | n.d. |
| DeepInfra (Turbo) | 0,1 $ | 0,32 $ | n.d. |
| artificialanalysis | 0,58 $ | 0,71 $ | 0,58 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 5 min 00 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Llama 3.3 70B Instruct ressort surtout sur les tâches de classification structurée, avec un résultat parfait en Email Classification (Baseline) et une place en top 10 sur ce benchmark. Ses scores élevés en Ethics (Baseline), General Knowledge (Baseline) et Hallucinations (Baseline) indiquent un modèle solide sur des évaluations généralistes de sa période, même si ces classements ne le placent pas toujours parmi les tout premiers. Sa grande fenêtre de contexte constitue un atout concret pour analyser de longs contenus. À sa sortie, son rang sur GPQA le plaçait dans le haut d’une partie significative de sa génération, sans atteindre le niveau des meilleurs modèles haut de gamme.
Limites et points d'attention. Llama 3.3 70B Instruct est aujourd’hui largement dépassé par des modèles plus récents et il est souvent retiré des catalogues éditeur. Son Intelligence Index le situe très bas dans l’ensemble comparé fourni, et son Math Index apparaît particulièrement faible. Le benchmark Mathematics (Baseline) confirme une faiblesse nette en raisonnement mathématique, tandis que Instruction Following (Baseline) reste seulement médian. Sa base de connaissances s’arrête fin 2023, ce qui limite la fiabilité sur les faits récents. La licence communautaire avec poids non ouverts réduit aussi la portée d’un usage ouvert complet.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Benchable.ai (benchable.ai).