DeepSeek R1 Distill Llama 70B

DeepSeek R1 Distill Llama 70B est un LLM open-weights publié par DeepSeek le 20 janvier 2025 sous licence MIT, avec usage commercial autorisé. Avec 71 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il se positionnait comme une variante distillée de grande taille,…

DeepSeek R1 Distill Llama 70B est un LLM open-weights publié par DeepSeek le 20 janvier 2025 sous licence MIT, avec usage commercial autorisé. Avec 71 milliards de paramètres et une fenêtre de contexte de 128 000 tokens, il se positionnait comme une variante distillée de grande taille, centrée sur le raisonnement et l’exécution d’instructions.

Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA. La fiche doit donc être lue comme le portrait d’un modèle performant dans sa génération, mais probablement dépassé aujourd’hui. Son intérêt reste aussi économique, avec un tarif très inférieur à la moyenne des LLM similaires et nettement sous les modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurDeepSeek
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie20 janvier 2025
Connaissances jusqu'à2024-07-31
Multimodalnon
Paramètres71 milliards
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Instruction Following (Baseline)100,0 %1ᵉ / 252benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,8 %63ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)90,0 %145ᵉ / 229benchable✅ Mesuré
Epoch: MATH level 589,9 %15ᵉ / 84epoch✅ Mesuré
Benchable : Coding (Baseline)87,0 %135ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)84,0 %106ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)79,0 %153ᵉ / 217benchable✅ Mesuré
Epoch: GPQA diamond55,7 %73ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202551,4 %60ᵉ / 111epoch✅ Mesuré
MATH-50094,5 %19ᵉ / 31llm-statsAuto-déclaré
AIME 202486,7 %13ᵉ / 52llm-statsAuto-déclaré
GPQA65,2 %130ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench57,5 %33ᵉ / 72llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Instruction Following (Baseline)

Nemotron 3 Ultra100 %
▶ DeepSeek R1 Distill Lla…100 %
Gemini 3.1 Pro …95 %

Benchable : General Knowledge (Baseline)

Gemini 2.5 Flash100 %
GPT-5100 %
qwen3-235b-a22b-04-28100 %
▶ DeepSeek R1 Distill Lla…100 %
nemotron-nano-12b-v2-vl100 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
NovitaAI0,8 $0,8 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 59 % en dessous de la moyenne des LLM similaires, et 6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable33 min 01 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. DeepSeek R1 Distill Llama 70B se distingue surtout par son suivi d’instructions, où il atteint le tout premier rang du benchmark Benchable Instruction Following (Baseline). Ses résultats en mathématiques sont également solides, avec une place dans le haut du tableau sur MATH level 5, un test exigeant de résolution de problèmes. À sa sortie, il figurait dans le top 21% des LLM de sa génération sur GPQA diamond, ce qui le situait dans le haut du panier pour les tâches de connaissances et de raisonnement difficiles. Son prix constitue un autre point fort concret : il est très économique, 59% sous la moyenne des LLM similaires et environ six fois moins cher que les modèles frontière.

Limites et points d'attention. Le modèle date de janvier 2025, avec des connaissances arrêtées au 2024-07-31, ce qui limite sa pertinence sur les sujets récents. Ses classements Benchable en connaissances générales, éthique, classification d’e-mails et hallucinations restent plus contrastés que son excellent score en suivi d’instructions, avec plusieurs positions en milieu de tableau. À l’échelle actuelle, ses performances sont probablement largement dépassées par des modèles plus récents, et ce type de modèle est souvent retiré des catalogues d’éditeurs après un cycle aussi long. Les chiffres disponibles ne documentent pas le coût d’entraînement ni l’équivalent GPU H100, ce qui empêche d’évaluer précisément l’effort industriel derrière cette distillation.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).