Step-3.5-Flash
Step-3.5-Flash est un LLM de StepFun publié le 2 février 2026, avec des poids ouverts sous licence Apache 2.0 et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte et un positionnement tarifaire très économique, nettement sous la moyenne des LLM…
Step-3.5-Flash est un LLM de StepFun publié le 2 février 2026, avec des poids ouverts sous licence Apache 2.0 et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte et un positionnement tarifaire très économique, nettement sous la moyenne des LLM comparables.
Avec 196 milliards de paramètres, Step-3.5-Flash vise un compromis entre ampleur, coût d’usage et disponibilité open-weights. Son prix est annoncé 95% sous la moyenne des modèles similaires et environ 53.7 fois inférieur à celui des modèles frontière, ce qui en fait un profil orienté volume et expérimentation à coût réduit.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | StepFun |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 2 février 2026 |
| Multimodal | non |
| Paramètres | 196 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 26.0 | 75ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 100,0 % | 1ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 100,0 % | 1ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 91,9 % | 96ᵉ / 248 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 79,4 % | 14ᵉ / 52 | pinchbench | ✅ Mesuré |
| AIME 2025 | 97,3 % | 12ᵉ / 108 | llm-stats | Auto-déclaré |
| Tau-bench | 88,2 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 86,4 % | 8ᵉ / 53 | llm-stats | Auto-déclaré |
| IMO-AnswerBench | 85,4 % | 8ᵉ / 18 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 74,4 % | 35ᵉ / 100 | llm-stats | Auto-déclaré |
| BrowseComp | 69,0 % | 22ᵉ / 51 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 51,0 % | 33ᵉ / 48 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Benchable : Hallucinations (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1395 | 128ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,09 $ | 0,3 $ | 0,02 $ |
| stepfun | 0,1 $ | 0,4 $ | n.d. |
| artificialanalysis | 0,1 $ | 0,3 $ | 0,02 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 53,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 1,12 $ |
| Durée d'exécution — PinchBench | 4 h 02 min |
| Indice valeur/coût — PinchBench | 170,77 |
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 1 h 08 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Step-3.5-Flash affiche des résultats Benchable de tout premier plan sur plusieurs tâches de base, notamment Instruction Following, General Knowledge, Email Classification, Reasoning, Ethics et Hallucinations, toutes classées dans le top 10. Ce profil suggère un modèle solide sur les usages structurés, les consignes explicites, le tri de contenus et les tâches générales où la conformité à l’instruction compte autant que la réponse elle-même. Sa fenêtre de contexte de 262 144 tokens constitue aussi un atout concret pour traiter de longs documents ou de grands historiques. À sa sortie, il se situait dans le top 23% des LLM de sa génération sur SWE-Bench Verified, ce qui le plaçait dans le haut du panier de son époque sur ce benchmark de développement logiciel.
Limites et points d'attention. Malgré ses excellents scores Benchable, Step-3.5-Flash n’apparaît pas comme un modèle de tête sur tous les classements globaux : son Intelligence Index le place plutôt en milieu de tableau, et son rang Arena text reste loin des meilleurs modèles évalués en préférence humaine. La taille de 196 milliards de paramètres peut aussi peser sur l’hébergement malgré un tarif d’inférence très bas. Le modèle convient surtout aux usages nécessitant de grands volumes, une licence ouverte et un coût maîtrisé, plutôt qu’aux scénarios recherchant systématiquement les meilleures performances absolues des modèles haut de gamme.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).