cohere

Cohere: Command R (08-2024)

Cohere: Command R (08-2024) est un LLM de Cohere sorti le 30 août 2024, avec des connaissances arrêtées au 31 mars 2024. À l’échelle de l’IA, son ancienneté d’environ deux ans le place déjà parmi les modèles d’une génération largement dépassée.

Son intérêt principal tient à un positionnement très économique et à une fenêtre de contexte de 128 000 tokens, utile pour traiter de longs documents. À sa sortie, il se situait dans les 62% les mieux classés sur MMLU parmi les LLM de sa génération, un niveau correct mais pas dominant.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	cohere
Date de sortie	30 août 2024
Connaissances jusqu'à	2024-03-31
Multimodal	non
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	97,0 %	195ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	96,0 %	197ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	93,0 %	194ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	77,0 %	189ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	70,0 %	167ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	50,0 %	173ᵉ / 252	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	44,0 %	217ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	34,0 %	206ᵉ / 239	benchable	✅ Mesuré
HellaSwag	88,6 %	6ᵉ / 27	llm-stats	Auto-déclaré
Winogrande	85,4 %	3ᵉ / 22	llm-stats	Auto-déclaré
MMLU	75,7 %	72ᵉ / 98	llm-stats	Auto-déclaré
ARC-C	71,0 %	20ᵉ / 34	llm-stats	Auto-déclaré
GSM8k	70,7 %	42ᵉ / 47	llm-stats	Auto-déclaré
TruthfulQA	56,3 %	12ᵉ / 18	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Command R97 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Command R96 %

WizardLM-2 8x22B95 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Cohere	0,15 $	0,6 $	n.d.
Cohere	2,5 $	10 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 92 % en dessous de la moyenne des LLM similaires, et 32,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	2 min 35 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Cohere: Command R (08-2024) conserve des résultats solides en pourcentage brut sur Ethics, Email Classification et General Knowledge, ce qui indique une base relativement fiable pour des tâches de compréhension générale, de tri de messages et de réponses factuelles simples. Sa grande fenêtre de contexte reste l’un de ses atouts les plus concrets, surtout pour analyser de longs textes dans une seule requête. Son tarif est aussi très bas: il se situe 92% sous la moyenne des LLM similaires et environ 32,2 fois moins cher que les modèles frontière, ce qui explique son intérêt historique pour des volumes importants à coût réduit.

Limites et points d'attention. Les classements Benchable placent le modèle plutôt en retrait face au panel évalué, y compris dans ses catégories les plus favorables. Les résultats en Coding et Mathematics sont moyens, tandis que Instruction Following ressort comme un point faible net, avec un risque plus élevé de réponses incomplètes ou mal alignées sur des consignes complexes. Son âge pèse fortement: les performances sont aujourd’hui largement dépassées par les générations récentes, et ce type de version est souvent retiré du catalogue actif de l’éditeur. La coupure des connaissances au 31 mars 2024 limite aussi sa pertinence sur l’actualité technique et réglementaire postérieure.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Cohere: Command R (08-2024)

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast