DeepSeek R1 Distill Qwen 7B

DeepSeek R1 Distill Qwen 7B est un LLM open-weights publié par DeepSeek le 20 janvier 2025 sous licence MIT, avec usage commercial autorisé. Avec 8 milliards de paramètres, il appartient à la famille des modèles compacts de sa période, plutôt qu’aux modèles frontière.

DeepSeek R1 Distill Qwen 7B est un LLM open-weights publié par DeepSeek le 20 janvier 2025 sous licence MIT, avec usage commercial autorisé. Avec 8 milliards de paramètres, il appartient à la famille des modèles compacts de sa période, plutôt qu’aux modèles frontière.

Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA. La fiche le situe donc comme un modèle de génération 2025, avec une fenêtre de contexte de 131 072 tokens et une base de connaissances arrêtée au 31 juillet 2024.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurDeepSeek
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie20 janvier 2025
Connaissances jusqu'à2024-07-31
Multimodalnon
Paramètres8 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
MATH-50092,8 %23ᵉ / 31llm-statsAuto-déclaré
AIME 202483,3 %19ᵉ / 52llm-statsAuto-déclaré
GPQA49,1 %159ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench37,6 %50ᵉ / 72llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. À sa sortie, DeepSeek R1 Distill Qwen 7B se plaçait dans le top 49% sur GPQA parmi 59 LLM publiés dans une fenêtre comparable, ce qui le situe dans le milieu supérieur de sa génération sur ce benchmark. Son format open-weights sous licence MIT constitue aussi un point fort concret, car il autorise l’usage commercial et l’intégration dans des environnements contrôlés. Sa fenêtre de contexte de 131 072 tokens était un atout notable pour traiter de longs documents ou conserver davantage d’éléments dans une même requête.

Limites et points d'attention. Le modèle doit être évalué comme un LLM de début 2025, pas comme une référence actuelle. Son ancienneté le rend probablement dépassé par les modèles haut de gamme récents, et ce type de modèle est souvent retiré des catalogues d’éditeurs lorsque de nouvelles générations le remplacent. Ses connaissances s’arrêtent au 31 juillet 2024, ce qui limite sa pertinence sur les faits postérieurs. La couverture repose sur 2 sources concordantes, suffisantes pour établir les éléments principaux, mais sans données fournies ici sur le coût d’entraînement, le compute ou d’autres benchmarks spécialisés.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai).