Cohere: Command R (08-2024)

Cohere: Command R (08-2024) est un LLM de Cohere sorti le 30 août 2024, avec des connaissances arrêtées au 31 mars 2024. À l’échelle de l’IA, son ancienneté d’environ deux ans le place déjà parmi les modèles d’une génération largement dépassée.

Cohere: Command R (08-2024) est un LLM de Cohere sorti le 30 août 2024, avec des connaissances arrêtées au 31 mars 2024. À l’échelle de l’IA, son ancienneté d’environ deux ans le place déjà parmi les modèles d’une génération largement dépassée.

Son intérêt principal tient à un positionnement très économique et à une fenêtre de contexte de 128 000 tokens, utile pour traiter de longs documents. À sa sortie, il se situait dans les 62% les mieux classés sur MMLU parmi les LLM de sa génération, un niveau correct mais pas dominant.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
Éditeurcohere
Date de sortie30 août 2024
Connaissances jusqu'à2024-03-31
Multimodalnon
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)97,0 %195ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)96,0 %197ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)93,0 %194ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)77,0 %189ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)70,0 %167ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)50,0 %173ᵉ / 252benchable✅ Mesuré
Benchable : Hallucinations (Baseline)44,0 %217ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)34,0 %206ᵉ / 239benchable✅ Mesuré
HellaSwag88,6 %6ᵉ / 27llm-statsAuto-déclaré
Winogrande85,4 %3ᵉ / 22llm-statsAuto-déclaré
MMLU75,7 %72ᵉ / 98llm-statsAuto-déclaré
ARC-C71,0 %20ᵉ / 34llm-statsAuto-déclaré
GSM8k70,7 %42ᵉ / 47llm-statsAuto-déclaré
TruthfulQA56,3 %12ᵉ / 18llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

deepseek-chat-v3100 %
Gemini 2.5 Flash Lite P…100 %
Qwen2.5 72B Instruct100 %
▶ Command R97 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %
Gemini 2.5 Flash-Lite100 %
GPT-4 Turbo100 %
nova-premier-v199 %
▶ Command R96 %
WizardLM-2 8x22B95 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Cohere0,15 $0,6 $n.d.
Cohere2,5 $10 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 92 % en dessous de la moyenne des LLM similaires, et 32,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable2 min 35 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Cohere: Command R (08-2024) conserve des résultats solides en pourcentage brut sur Ethics, Email Classification et General Knowledge, ce qui indique une base relativement fiable pour des tâches de compréhension générale, de tri de messages et de réponses factuelles simples. Sa grande fenêtre de contexte reste l’un de ses atouts les plus concrets, surtout pour analyser de longs textes dans une seule requête. Son tarif est aussi très bas: il se situe 92% sous la moyenne des LLM similaires et environ 32,2 fois moins cher que les modèles frontière, ce qui explique son intérêt historique pour des volumes importants à coût réduit.

Limites et points d'attention. Les classements Benchable placent le modèle plutôt en retrait face au panel évalué, y compris dans ses catégories les plus favorables. Les résultats en Coding et Mathematics sont moyens, tandis que Instruction Following ressort comme un point faible net, avec un risque plus élevé de réponses incomplètes ou mal alignées sur des consignes complexes. Son âge pèse fortement: les performances sont aujourd’hui largement dépassées par les générations récentes, et ce type de version est souvent retiré du catalogue actif de l’éditeur. La coupure des connaissances au 31 mars 2024 limite aussi sa pertinence sur l’actualité technique et réglementaire postérieure.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).