DeepSeek

DeepSeek R1 Distill Qwen 7B

DeepSeek R1 Distill Qwen 7B est un LLM open-weights publié par DeepSeek le 20 janvier 2025 sous licence MIT, avec usage commercial autorisé. Avec 8 milliards de paramètres, il appartient à la famille des modèles compacts de sa période, plutôt qu’aux modèles frontière.

Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA. La fiche le situe donc comme un modèle de génération 2025, avec une fenêtre de contexte de 131 072 tokens et une base de connaissances arrêtée au 31 juillet 2024.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	20 janvier 2025
Connaissances jusqu'à	2024-07-31
Multimodal	non
Paramètres	8 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
MATH-500	92,8 %	23ᵉ / 31	llm-stats	Auto-déclaré
AIME 2024	83,3 %	19ᵉ / 52	llm-stats	Auto-déclaré
GPQA	49,1 %	159ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	37,6 %	50ᵉ / 72	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. À sa sortie, DeepSeek R1 Distill Qwen 7B se plaçait dans le top 49% sur GPQA parmi 59 LLM publiés dans une fenêtre comparable, ce qui le situe dans le milieu supérieur de sa génération sur ce benchmark. Son format open-weights sous licence MIT constitue aussi un point fort concret, car il autorise l’usage commercial et l’intégration dans des environnements contrôlés. Sa fenêtre de contexte de 131 072 tokens était un atout notable pour traiter de longs documents ou conserver davantage d’éléments dans une même requête.

Limites et points d'attention. Le modèle doit être évalué comme un LLM de début 2025, pas comme une référence actuelle. Son ancienneté le rend probablement dépassé par les modèles haut de gamme récents, et ce type de modèle est souvent retiré des catalogues d’éditeurs lorsque de nouvelles générations le remplacent. Ses connaissances s’arrêtent au 31 juillet 2024, ce qui limite sa pertinence sur les faits postérieurs. La couverture repose sur 2 sources concordantes, suffisantes pour établir les éléments principaux, mais sans données fournies ici sur le coût d’entraînement, le compute ou d’autres benchmarks spécialisés.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai).

DeepSeek R1 Distill Qwen 7B

Caractéristiques

Performances (benchmarks)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast