deepcogito

Deep Cogito: Cogito v2.1 671B

Cogito v2.1 671B est le plus gros modèle en poids ouverts de Deep Cogito, une jeune pousse de San Francisco, publié à la mi-novembre 2025. C'est un Mixture-of-Experts de 671 milliards de paramètres, forké de DeepSeek-V3-Base puis post-entraîné par une méthode maison, l'IDA (Iterated Distillation and Amplification), qui alterne amplification (plus de calcul à l'inférence) et distillation (réinternalisation dans les poids) pour viser l'auto-amélioration. C'est un modèle hybride, à réponse directe ou raisonnement explicite.

Deep Cogito revendique moins de 3,5 millions de dollars pour développer toute sa lignée de modèles, et non ce seul modèle.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	deepcogito
Date de sortie	13 novembre 2025
Multimodal	non
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	98,0 %	143ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	96,0 %	13ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	91,0 %	98ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	78,0 %	124ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	70,0 %	92ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Cogito v2.…100 %

Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Cogito v2.…100 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Together	1,25 $	1,25 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,03 $
Latence moyenne par benchmark — Benchable	2 min 30 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Le raisonnement mathématique est d'un niveau d'élite (AIME et MATH-500 quasi saturés), avec de très bons résultats en sciences (GPQA Diamond) et en connaissances (MMLU-Pro). Son argument distinctif est l'efficience en tokens : des chaînes de raisonnement environ 60 % plus courtes que les concurrents, donc un coût d'inférence réduit. Il est réellement ouvert (licence MIT, version FP8 officielle, multi-fournisseurs), donc auto-hébergeable.

Limites et points d'attention. Il est très lourd à servir (de l'ordre de huit GPU B200), ses paramètres actifs ne sont pas officiellement communiqués, et le coût de 3,5 millions de dollars couvre toute la lignée, pas la seule v2.1. Sur le code agentique (SWE-Bench), il reste en retrait des spécialistes. Il illustre surtout qu'un acteur américain peut produire un modèle ouvert de classe frontière à partir d'une base DeepSeek pour un budget réduit.

Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Deep Cogito: Cogito v2.1 671B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast