Deep Cogito: Cogito v2.1 671B
Cogito v2.1 671B est le plus gros modèle en poids ouverts de Deep Cogito, une jeune pousse de San Francisco, publié à la mi-novembre 2025. C'est un Mixture-of-Experts de 671 milliards de paramètres, forké de DeepSeek-V3-Base puis post-entraîné par une méthode maison, l'IDA (Iterated…
Cogito v2.1 671B est le plus gros modèle en poids ouverts de Deep Cogito, une jeune pousse de San Francisco, publié à la mi-novembre 2025. C'est un Mixture-of-Experts de 671 milliards de paramètres, forké de DeepSeek-V3-Base puis post-entraîné par une méthode maison, l'IDA (Iterated Distillation and Amplification), qui alterne amplification (plus de calcul à l'inférence) et distillation (réinternalisation dans les poids) pour viser l'auto-amélioration. C'est un modèle hybride, à réponse directe ou raisonnement explicite.
Deep Cogito revendique moins de 3,5 millions de dollars pour développer toute sa lignée de modèles, et non ce seul modèle.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | deepcogito |
| Date de sortie | 13 novembre 2025 |
| Multimodal | non |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 98,0 % | 143ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 96,0 % | 13ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 91,0 % | 98ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 78,0 % | 124ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 70,0 % | 92ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Together | 1,25 $ | 1,25 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,03 $ |
| Latence moyenne par benchmark — Benchable | 2 min 30 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Le raisonnement mathématique est d'un niveau d'élite (AIME et MATH-500 quasi saturés), avec de très bons résultats en sciences (GPQA Diamond) et en connaissances (MMLU-Pro). Son argument distinctif est l'efficience en tokens : des chaînes de raisonnement environ 60 % plus courtes que les concurrents, donc un coût d'inférence réduit. Il est réellement ouvert (licence MIT, version FP8 officielle, multi-fournisseurs), donc auto-hébergeable.
Limites et points d'attention. Il est très lourd à servir (de l'ordre de huit GPU B200), ses paramètres actifs ne sont pas officiellement communiqués, et le coût de 3,5 millions de dollars couvre toute la lignée, pas la seule v2.1. Sur le code agentique (SWE-Bench), il reste en retrait des spécialistes. Il illustre surtout qu'un acteur américain peut produire un modèle ouvert de classe frontière à partir d'une base DeepSeek pour un budget réduit.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).