DeepSeek-V2.5
DeepSeek-V2.5 est un LLM de l’éditeur chinois DeepSeek, sorti le 8 mai 2024 sous licence deepseek, avec des poids non ouverts. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, et doit surtout être lu comme un modèle de sa…
DeepSeek-V2.5 est un LLM de l’éditeur chinois DeepSeek, sorti le 8 mai 2024 sous licence deepseek, avec des poids non ouverts. Avec près de deux ans d’ancienneté, il appartient déjà à une génération très éloignée du rythme actuel de l’IA, et doit surtout être lu comme un modèle de sa période.
Son profil reste marquant par l’échelle annoncée : 236 milliards de paramètres, une fenêtre de contexte de 128 000 tokens et un entraînement estimé à 1,8 × 10²⁴ FLOP, soit environ 497 000 heures-GPU H100. Ses connaissances s’arrêtent au 31 juillet 2024.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | DeepSeek |
| Licence | deepseek (poids non ouverts) |
| Date de sortie | 8 mai 2024 |
| Connaissances jusqu'à | 2024-07-31 |
| Multimodal | non |
| Paramètres | 236 milliards |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| GSM8k | 95,1 % | 10ᵉ / 47 | llm-stats | Auto-déclaré |
| MT-Bench | 90,2 % | 3ᵉ / 12 | llm-stats | Auto-déclaré |
| HumanEval | 89,0 % | 15ᵉ / 65 | llm-stats | Auto-déclaré |
| BBH | 84,3 % | 5ᵉ / 12 | llm-stats | Auto-déclaré |
| AlignBench | 80,4 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| MMLU | 80,4 % | 58ᵉ / 98 | llm-stats | Auto-déclaré |
| Arena Hard | 76,2 % | 8ᵉ / 26 | llm-stats | Auto-déclaré |
| MATH | 74,7 % | 29ᵉ / 70 | llm-stats | Auto-déclaré |
| Aider | 72,2 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| AlpacaEval 2.0 | 50,5 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 16,8 % | 99ᵉ / 100 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 1,8 × 10²⁴ FLOP |
| Jeu de données | GitHub,Common Crawl |
| Pays | China |
Notre analyse
Forces. À sa sortie, DeepSeek-V2.5 se situait dans le haut du panier de sa génération sur MATH, un benchmark centré sur le raisonnement mathématique. Cette position dans le top 25% des LLM comparables de la même période indique un modèle compétitif sur les tâches formelles à son lancement. Sa fenêtre de contexte de 128 000 tokens constituait aussi un atout concret pour traiter de longs documents, de gros historiques de conversation ou des corpus étendus sans découpage excessif.
Limites et points d'attention. DeepSeek-V2.5 est aujourd’hui un modèle ancien à l’échelle de l’IA générative : ses performances sont probablement largement dépassées par les modèles haut de gamme récents, et ce type de version est souvent retiré du catalogue de l’éditeur au fil des mises à jour. Sa licence deepseek ne correspond pas à des poids ouverts, ce qui limite l’audit, l’hébergement autonome et les adaptations indépendantes. L’élément le plus durablement notable reste l’effort d’entraînement annoncé, avec 1,8 × 10²⁴ FLOP, environ 497 000 heures-GPU H100, soit l’équivalent d’environ 230 GPU H100 tournant trois mois.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0.