DeepSeek-V2.5

DeepSeek-V2.5 est un LLM de l’éditeur chinois DeepSeek, sorti le 8 mai 2024 sous licence deepseek, avec des poids non ouverts. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, et doit surtout être lu comme un modèle de sa…

DeepSeek-V2.5 est un LLM de l’éditeur chinois DeepSeek, sorti le 8 mai 2024 sous licence deepseek, avec des poids non ouverts. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, et doit surtout être lu comme un modèle de sa période.

Son profil reste marquant par l’échelle annoncée : 236 milliards de paramètres, une fenêtre de contexte de 128 000 tokens et un entraînement estimé à 1,8 × 10²⁴ FLOP, soit environ 497 000 heures-GPU H100. Ses connaissances s’arrêtent au 31 juillet 2024.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurDeepSeek
Licencedeepseek (poids non ouverts)
Date de sortie8 mai 2024
Connaissances jusqu'à2024-07-31
Multimodalnon
Paramètres236 milliards
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
GSM8k95,1 %10ᵉ / 47llm-statsAuto-déclaré
MT-Bench90,2 %3ᵉ / 12llm-statsAuto-déclaré
HumanEval89,0 %15ᵉ / 65llm-statsAuto-déclaré
BBH84,3 %5ᵉ / 12llm-statsAuto-déclaré
AlignBench80,4 %2ᵉ / 4llm-statsAuto-déclaré
MMLU80,4 %58ᵉ / 98llm-statsAuto-déclaré
Arena Hard76,2 %8ᵉ / 26llm-statsAuto-déclaré
MATH74,7 %29ᵉ / 70llm-statsAuto-déclaré
Aider72,2 %1ᵉ / 4llm-statsAuto-déclaré
AlpacaEval 2.050,5 %3ᵉ / 4llm-statsAuto-déclaré
SWE-Bench Verified16,8 %99ᵉ / 100llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement1,8 × 10²⁴ FLOP
Jeu de donnéesGitHub,Common Crawl
PaysChina

Notre analyse

Forces. À sa sortie, DeepSeek-V2.5 se situait dans le haut du panier de sa génération sur MATH, un benchmark centré sur le raisonnement mathématique. Cette position dans le top 25% des LLM comparables de la même période indique un modèle compétitif sur les tâches formelles à son lancement. Sa fenêtre de contexte de 128 000 tokens constituait aussi un atout concret pour traiter de longs documents, de gros historiques de conversation ou des corpus étendus sans découpage excessif.

Limites et points d'attention. DeepSeek-V2.5 est aujourd’hui un modèle ancien à l’échelle de l’IA générative : ses performances sont probablement largement dépassées par les modèles haut de gamme récents, et ce type de version est souvent retiré du catalogue de l’éditeur au fil des mises à jour. Sa licence deepseek ne correspond pas à des poids ouverts, ce qui limite l’audit, l’hébergement autonome et les adaptations indépendantes. L’élément le plus durablement notable reste l’effort d’entraînement annoncé, avec 1,8 × 10²⁴ FLOP, environ 497 000 heures-GPU H100, soit l’équivalent d’environ 230 GPU H100 tournant trois mois.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0.