Arcee AI: Coder Large

Coder Large est un modèle de programmation d'Arcee AI, société américaine spécialiste du model merging et des petits modèles, sorti le 5 mai 2025. C'est un modèle dense de 32 milliards de paramètres, fine-tuné à partir de Qwen 2.5 (32B) sur du code permissif et des corrections de bugs…

Coder Large est un modèle de programmation d'Arcee AI, société américaine spécialiste du model merging et des petits modèles, sorti le 5 mai 2025. C'est un modèle dense de 32 milliards de paramètres, fine-tuné à partir de Qwen 2.5 (32B) sur du code permissif et des corrections de bugs synthétiques, avec une passe d'apprentissage par renforcement récompensant le code qui compile.

Accessible par API (hébergé chez Together AI et via OpenRouter) à bas coût, il se positionne comme un copilote pour le refactoring multi-fichiers et l'apprentissage.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
Éditeurarcee-ai
Date de sortie5 mai 2025
Connaissances jusqu'à2025-03-31
Multimodalnon
Paramètres32 milliards
Fenêtre de contexte32 768 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)96,0 %175ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)95,0 %207ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)81,0 %168ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)72,0 %142ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)56,6 %151ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

deepseek-chat-v3100 %
gemini-3.1-flash-image100 %
Qwen2.5 72B Instruct100 %
▶ Coder Large100 %
Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

deepseek-chat-v3100 %
Gemini 2.5 Flash Lite P…100 %
Qwen2.5 72B Instruct100 %
▶ Coder Large99 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Together0,5 $0,8 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 74 % en dessous de la moyenne des LLM similaires, et 9,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable2 min 03 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Son rapport qualité/prix est son principal argument : pour un tarif modique, il couvre une trentaine de langages (TypeScript, Go, Terraform) et produit des sorties à visée pédagogique. Adossé à l'excellente base Qwen 2.5-Coder, il constitue une option d'assistance au code accessible.

Limites et points d'attention. Sa fenêtre de contexte est modeste (environ 33 000 tokens), il ne dispose pas de mode de raisonnement « thinking », et ses poids ne sont pas ouverts de façon confirmée. Les gains mis en avant par l'éditeur sont auto-déclarés et comparés à des modèles déjà anciens, donc à relativiser. Sa description officielle relève largement du discours commercial. Il vise les développeurs cherchant un assistant code économique pour des tâches courantes.


Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).