Arcee AI: Trinity Large Thinking
Trinity Large Thinking est le modèle de raisonnement en poids ouverts d'Arcee AI, dévoilé le 1er avril 2026. C'est un Mixture-of-Experts creux d'environ 398 milliards de paramètres au total, dont seulement 13 activés par token (256 experts, 4 actifs). Arcee a communiqué un entraînement…
Trinity Large Thinking est le modèle de raisonnement en poids ouverts d'Arcee AI, dévoilé le 1er avril 2026. C'est un Mixture-of-Experts creux d'environ 398 milliards de paramètres au total, dont seulement 13 activés par token (256 experts, 4 actifs). Arcee a communiqué un entraînement détaillé et rare à ce niveau de transparence : environ 20 millions de dollars, 2 048 GPU NVIDIA B300 pendant 33 jours, sur 17 000 milliards de tokens.
Le modèle raisonne en blocs explicites et vise les agents à long horizon ; il est diffusé en poids ouverts avec une API très bon marché.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | arcee-ai |
| Date de sortie | 1 avril 2026 |
| Multimodal | non |
| Paramètres | 398 milliards |
| Paramètres actifs | 13 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 24.5 | 85ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 97,5 % | 4ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 96,5 % | 166ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,9 % | 75ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 92,0 % | 140ᵉ / 229 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 65,7 % | 33ᵉ / 52 | pinchbench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 0,0 % | 229ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Benchable : Reasoning (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1369 | 155ᵉ |
| Arena Code | 1244 | 78ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| artificialanalysis | 0,235 $ | 0,875 $ | 0,155 $ |
| Arcee AI | 0,25 $ | 0,8 $ | 0,06 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 88 % en dessous de la moyenne des LLM similaires, et 20,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 3,05 $ |
| Durée d'exécution — PinchBench | 3 h 40 min |
| Indice valeur/coût — PinchBench | 55,21 |
| Coût moyen par benchmark — Benchable | 0,12 $ |
| Latence moyenne par benchmark — Benchable | 30 min 59 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Trinity Large vise le niveau des modèles frontière sur l'agentique et le code à une fraction de leur prix : Arcee le revendique en tête sur LiveCodeBench et juste derrière les meilleurs sur PinchBench, pour une sortie facturée autour de 0.90 dollar le million de tokens. Sa sparsité (13 milliards actifs) le rend deux à trois fois plus rapide qu'un modèle dense équivalent, ses poids sont réellement ouverts (auditables, auto-hébergeables, atout de souveraineté), et son contexte dépasse les 250 000 tokens.
Limites et points d'attention. Tous les benchmarks sont auto-déclarés par Arcee, sans validation tierce au lancement, et le modèle reste nettement en retrait sur SWE-Bench. En usage agentique réel, la latence et le coût grimpent fortement car le raisonnement long est imposé. Plusieurs incohérences entre sources subsistent (licence Apache 2.0 ou OpenMDW, 17 ou 20 000 milliards de tokens). Il vise les agents ouverts exigeants en raisonnement.
Sources des données : OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).