Deep Cogito: Cogito v2.1 671B

Cogito v2.1 671B est le plus gros modèle en poids ouverts de Deep Cogito, une jeune pousse de San Francisco, publié à la mi-novembre 2025. C'est un Mixture-of-Experts de 671 milliards de paramètres, forké de DeepSeek-V3-Base puis post-entraîné par une méthode maison, l'IDA (Iterated…

Cogito v2.1 671B est le plus gros modèle en poids ouverts de Deep Cogito, une jeune pousse de San Francisco, publié à la mi-novembre 2025. C'est un Mixture-of-Experts de 671 milliards de paramètres, forké de DeepSeek-V3-Base puis post-entraîné par une méthode maison, l'IDA (Iterated Distillation and Amplification), qui alterne amplification (plus de calcul à l'inférence) et distillation (réinternalisation dans les poids) pour viser l'auto-amélioration. C'est un modèle hybride, à réponse directe ou raisonnement explicite.

Deep Cogito revendique moins de 3,5 millions de dollars pour développer toute sa lignée de modèles, et non ce seul modèle.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
Éditeurdeepcogito
Date de sortie13 novembre 2025
Multimodalnon
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)98,0 %143ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)96,0 %13ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)91,0 %98ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)78,0 %124ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)70,0 %92ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

deepseek-chat-v3100 %
gemini-3.1-flash-image100 %
Qwen2.5 72B Instruct100 %
▶ Cogito v2.…100 %
Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

deepseek-chat-v3100 %
Gemini 2.5 Flash Lite P…100 %
Qwen2.5 72B Instruct100 %
▶ Cogito v2.…100 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Together1,25 $1,25 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,03 $
Latence moyenne par benchmark — Benchable2 min 30 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Le raisonnement mathématique est d'un niveau d'élite (AIME et MATH-500 quasi saturés), avec de très bons résultats en sciences (GPQA Diamond) et en connaissances (MMLU-Pro). Son argument distinctif est l'efficience en tokens : des chaînes de raisonnement environ 60 % plus courtes que les concurrents, donc un coût d'inférence réduit. Il est réellement ouvert (licence MIT, version FP8 officielle, multi-fournisseurs), donc auto-hébergeable.

Limites et points d'attention. Il est très lourd à servir (de l'ordre de huit GPU B200), ses paramètres actifs ne sont pas officiellement communiqués, et le coût de 3,5 millions de dollars couvre toute la lignée, pas la seule v2.1. Sur le code agentique (SWE-Bench), il reste en retrait des spécialistes. Il illustre surtout qu'un acteur américain peut produire un modèle ouvert de classe frontière à partir d'une base DeepSeek pour un budget réduit.


Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).