DeepSeek

DeepSeek-V2.5

DeepSeek-V2.5 est un LLM de l’éditeur chinois DeepSeek, sorti le 8 mai 2024 sous licence deepseek, avec des poids non ouverts. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, et doit surtout être lu comme un modèle de sa…

Son profil reste marquant par l’échelle annoncée : 236 milliards de paramètres, une fenêtre de contexte de 128 000 tokens et un entraînement estimé à 1,8 × 10²⁴ FLOP, soit environ 497 000 heures-GPU H100. Ses connaissances s’arrêtent au 31 juillet 2024.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	DeepSeek
Licence	deepseek (poids non ouverts)
Date de sortie	8 mai 2024
Connaissances jusqu'à	2024-07-31
Multimodal	non
Paramètres	236 milliards
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
GSM8k	95,1 %	10ᵉ / 47	llm-stats	Auto-déclaré
MT-Bench	90,2 %	3ᵉ / 12	llm-stats	Auto-déclaré
HumanEval	89,0 %	15ᵉ / 65	llm-stats	Auto-déclaré
BBH	84,3 %	5ᵉ / 12	llm-stats	Auto-déclaré
AlignBench	80,4 %	2ᵉ / 4	llm-stats	Auto-déclaré
MMLU	80,4 %	58ᵉ / 98	llm-stats	Auto-déclaré
Arena Hard	76,2 %	8ᵉ / 26	llm-stats	Auto-déclaré
MATH	74,7 %	29ᵉ / 70	llm-stats	Auto-déclaré
Aider	72,2 %	1ᵉ / 4	llm-stats	Auto-déclaré
AlpacaEval 2.0	50,5 %	3ᵉ / 4	llm-stats	Auto-déclaré
SWE-Bench Verified	16,8 %	99ᵉ / 100	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	1,8 × 10²⁴ FLOP
Jeu de données	GitHub,Common Crawl
Pays	China

Notre analyse

Forces. À sa sortie, DeepSeek-V2.5 se situait dans le haut du panier de sa génération sur MATH, un benchmark centré sur le raisonnement mathématique. Cette position dans le top 25% des LLM comparables de la même période indique un modèle compétitif sur les tâches formelles à son lancement. Sa fenêtre de contexte de 128 000 tokens constituait aussi un atout concret pour traiter de longs documents, de gros historiques de conversation ou des corpus étendus sans découpage excessif.

Limites et points d'attention. DeepSeek-V2.5 est aujourd’hui un modèle ancien à l’échelle de l’IA générative : ses performances sont probablement largement dépassées par les modèles haut de gamme récents, et ce type de version est souvent retiré du catalogue de l’éditeur au fil des mises à jour. Sa licence deepseek ne correspond pas à des poids ouverts, ce qui limite l’audit, l’hébergement autonome et les adaptations indépendantes. L’élément le plus durablement notable reste l’effort d’entraînement annoncé, avec 1,8 × 10²⁴ FLOP, environ 497 000 heures-GPU H100, soit l’équivalent d’environ 230 GPU H100 tournant trois mois.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

DeepSeek-V2.5

Caractéristiques

Performances (benchmarks)

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast