arcee-ai

Arcee AI: Coder Large

Coder Large est un modèle de programmation d'Arcee AI, société américaine spécialiste du model merging et des petits modèles, sorti le 5 mai 2025. C'est un modèle dense de 32 milliards de paramètres, fine-tuné à partir de Qwen 2.5 (32B) sur du code permissif et des corrections de bugs…

Accessible par API (hébergé chez Together AI et via OpenRouter) à bas coût, il se positionne comme un copilote pour le refactoring multi-fichiers et l'apprentissage.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	arcee-ai
Date de sortie	5 mai 2025
Connaissances jusqu'à	2025-03-31
Multimodal	non
Paramètres	32 milliards
Fenêtre de contexte	32 768 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	96,0 %	175ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	95,0 %	207ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	81,0 %	168ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	72,0 %	142ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	56,6 %	151ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Coder Large100 %

Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Coder Large99 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Together	0,5 $	0,8 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 74 % en dessous de la moyenne des LLM similaires, et 9,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	2 min 03 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Son rapport qualité/prix est son principal argument : pour un tarif modique, il couvre une trentaine de langages (TypeScript, Go, Terraform) et produit des sorties à visée pédagogique. Adossé à l'excellente base Qwen 2.5-Coder, il constitue une option d'assistance au code accessible.

Limites et points d'attention. Sa fenêtre de contexte est modeste (environ 33 000 tokens), il ne dispose pas de mode de raisonnement « thinking », et ses poids ne sont pas ouverts de façon confirmée. Les gains mis en avant par l'éditeur sont auto-déclarés et comparés à des modèles déjà anciens, donc à relativiser. Sa description officielle relève largement du discours commercial. Il vise les développeurs cherchant un assistant code économique pour des tâches courantes.

Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Arcee AI: Coder Large

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast