Arcee AI: Coder Large
Coder Large est un modèle de programmation d'Arcee AI, société américaine spécialiste du model merging et des petits modèles, sorti le 5 mai 2025. C'est un modèle dense de 32 milliards de paramètres, fine-tuné à partir de Qwen 2.5 (32B) sur du code permissif et des corrections de bugs…
Coder Large est un modèle de programmation d'Arcee AI, société américaine spécialiste du model merging et des petits modèles, sorti le 5 mai 2025. C'est un modèle dense de 32 milliards de paramètres, fine-tuné à partir de Qwen 2.5 (32B) sur du code permissif et des corrections de bugs synthétiques, avec une passe d'apprentissage par renforcement récompensant le code qui compile.
Accessible par API (hébergé chez Together AI et via OpenRouter) à bas coût, il se positionne comme un copilote pour le refactoring multi-fichiers et l'apprentissage.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | arcee-ai |
| Date de sortie | 5 mai 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | non |
| Paramètres | 32 milliards |
| Fenêtre de contexte | 32 768 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 96,0 % | 175ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 95,0 % | 207ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 81,0 % | 168ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 72,0 % | 142ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 56,6 % | 151ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Together | 0,5 $ | 0,8 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 74 % en dessous de la moyenne des LLM similaires, et 9,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 2 min 03 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Son rapport qualité/prix est son principal argument : pour un tarif modique, il couvre une trentaine de langages (TypeScript, Go, Terraform) et produit des sorties à visée pédagogique. Adossé à l'excellente base Qwen 2.5-Coder, il constitue une option d'assistance au code accessible.
Limites et points d'attention. Sa fenêtre de contexte est modeste (environ 33 000 tokens), il ne dispose pas de mode de raisonnement « thinking », et ses poids ne sont pas ouverts de façon confirmée. Les gains mis en avant par l'éditeur sont auto-déclarés et comparés à des modèles déjà anciens, donc à relativiser. Sa description officielle relève largement du discours commercial. Il vise les développeurs cherchant un assistant code économique pour des tâches courantes.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).