DeepSeek R1 Distill Llama 70B
DeepSeek R1 Distill Llama 70B est un LLM open-weights publié par DeepSeek le 20 janvier 2025 sous licence MIT, avec usage commercial autorisé. Avec 71 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il se positionnait comme une variante distillée de grande taille,…
DeepSeek R1 Distill Llama 70B est un LLM open-weights publié par DeepSeek le 20 janvier 2025 sous licence MIT, avec usage commercial autorisé. Avec 71 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il se positionnait comme une variante distillée de grande taille, centrée sur le raisonnement et l’exécution d’instructions.
Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA. La fiche doit donc être lue comme le portrait d’un modèle performant dans sa génération, mais probablement dépassé aujourd’hui. Son intérêt reste aussi économique, avec un tarif très inférieur à la moyenne des LLM similaires et nettement sous les modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 20 janvier 2025 |
| Connaissances jusqu'à | 2024-07-31 |
| Multimodal | non |
| Paramètres | 71 milliards |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Instruction Following (Baseline) | 100,0 % | 1ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,8 % | 63ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 90,0 % | 145ᵉ / 229 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 89,9 % | 15ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Coding (Baseline) | 87,0 % | 135ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 84,0 % | 106ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 79,0 % | 153ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 55,7 % | 73ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 51,4 % | 60ᵉ / 111 | epoch | ✅ Mesuré |
| MATH-500 | 94,5 % | 19ᵉ / 31 | llm-stats | Auto-déclaré |
| AIME 2024 | 86,7 % | 13ᵉ / 52 | llm-stats | Auto-déclaré |
| GPQA | 65,2 % | 130ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 57,5 % | 33ᵉ / 72 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Instruction Following (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| NovitaAI | 0,8 $ | 0,8 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 59 % en dessous de la moyenne des LLM similaires, et 6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 33 min 01 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. DeepSeek R1 Distill Llama 70B se distingue surtout par son suivi d’instructions, où il atteint le tout premier rang du benchmark Benchable Instruction Following (Baseline). Ses résultats en mathématiques sont également solides, avec une place dans le haut du tableau sur MATH level 5, un test exigeant de résolution de problèmes. À sa sortie, il figurait dans le top 21% des LLM de sa génération sur GPQA diamond, ce qui le situait dans le haut du panier pour les tâches de connaissances et de raisonnement difficiles. Son prix constitue un autre point fort concret : il est très économique, 59% sous la moyenne des LLM similaires et environ six fois moins cher que les modèles frontière.
Limites et points d'attention. Le modèle date de janvier 2025, avec des connaissances arrêtées au 2024-07-31, ce qui limite sa pertinence sur les sujets récents. Ses classements Benchable en connaissances générales, éthique, classification d’e-mails et hallucinations restent plus contrastés que son excellent score en suivi d’instructions, avec plusieurs positions en milieu de tableau. À l’échelle actuelle, ses performances sont probablement largement dépassées par des modèles plus récents, et ce type de modèle est souvent retiré des catalogues d’éditeurs après un cycle aussi long. Les chiffres disponibles ne documentent pas le coût d’entraînement ni l’équivalent GPU H100, ce qui empêche d’évaluer précisément l’effort industriel derrière cette distillation.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).