StepFun: Step 3.7 Flash
StepFun: Step 3.7 Flash est un LLM publié par StepFun le 28 mai 2026, avec un positionnement clair: un modèle récent, compact en paramètres actifs et conçu pour rester très économique. Sa fenêtre de contexte de 256 000 tokens le place dans la catégorie des modèles capables de traiter de…
StepFun: Step 3.7 Flash est un LLM publié par StepFun le 28 mai 2026, avec un positionnement clair: un modèle récent, compact en paramètres actifs et conçu pour rester très économique. Sa fenêtre de contexte de 256 000 tokens le place dans la catégorie des modèles capables de traiter de longs volumes de texte en une seule requête.
Son intérêt principal tient au rapport entre coût et résultats déclarés: le tarif est 90% inférieur à la moyenne des LLM similaires, et environ 24,2 fois moins cher que les modèles frontière. Les données reposent sur 3 sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | StepFun |
| Date de sortie | 28 mai 2026 |
| Multimodal | oui |
| Paramètres actifs | 11 milliards |
| Fenêtre de contexte | 256 000 tokens |
| Modalités (entrée → sortie) | text,image,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 29.7 | 63ᵉ / 136 |
| Code Index | 37.3 | 38ᵉ / 50 |
| Agentic Index | 21.5 | 25ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 100,0 % | 1ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 100,0 % | 1ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 50,0 % | 188ᵉ / 239 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| StepFun | 0,2 $ | 1,15 $ | 0,04 $ |
| artificialanalysis | 0,2 $ | 1,15 $ | 0,04 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 90 % en dessous de la moyenne des LLM similaires, et 24,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 2 min 58 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. StepFun: Step 3.7 Flash se distingue d’abord par ses résultats Benchable: les évaluations Baseline le placent en top 10 sur l’Instruction Following, le General Knowledge, le Coding, l’Email Classification, l’Ethics et le test Hallucinations. Ce profil suggère un modèle solide sur des tâches courantes de production, de tri, de réponse structurée et de code, avec une bonne conformité aux consignes dans les tests fournis. La fenêtre de contexte de 256 000 tokens renforce son intérêt pour les documents longs, les historiques étendus ou les corpus volumineux. Son tarif très économique constitue un autre point fort: il combine un prix d’entrée bas, un coût de sortie contenu et un écart marqué avec les modèles haut de gamme.
Limites et points d'attention. Les indices agrégés nuancent les très bons scores Benchable: l’Intelligence Index situe le modèle en milieu de tableau, tandis que le Code Index et l’Agentic Index ne le placent pas parmi les tout premiers de leurs catégories. Les résultats disponibles décrivent donc surtout un modèle efficace sur des benchmarks Baseline, sans établir une domination générale sur les tâches complexes de raisonnement, de programmation avancée ou d’usage agentique. StepFun: Step 3.7 Flash convient surtout aux usages à fort volume où le coût, le contexte long et le respect des consignes priment sur la performance maximale.
Sources des données : OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Benchable.ai (benchable.ai).