Step-3.5-Flash

Step-3.5-Flash est un LLM de StepFun publié le 2 février 2026, avec des poids ouverts sous licence Apache 2.0 et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte et un positionnement tarifaire très économique, nettement sous la moyenne des LLM…

Step-3.5-Flash est un LLM de StepFun publié le 2 février 2026, avec des poids ouverts sous licence Apache 2.0 et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte et un positionnement tarifaire très économique, nettement sous la moyenne des LLM comparables.

Avec 196 milliards de paramètres, Step-3.5-Flash vise un compromis entre ampleur, coût d’usage et disponibilité open-weights. Son prix est annoncé 95% sous la moyenne des modèles similaires et environ 53.7 fois inférieur à celui des modèles frontière, ce qui en fait un profil orienté volume et expérimentation à coût réduit.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurStepFun
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie2 février 2026
Multimodalnon
Paramètres196 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index26.075ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)100,0 %1ᵉ / 252benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)100,0 %1ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)91,9 %96ᵉ / 248benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)79,4 %14ᵉ / 52pinchbench✅ Mesuré
AIME 202597,3 %12ᵉ / 108llm-statsAuto-déclaré
Tau-bench88,2 %1ᵉ / 6llm-statsAuto-déclaré
LiveCodeBench v686,4 %8ᵉ / 53llm-statsAuto-déclaré
IMO-AnswerBench85,4 %8ᵉ / 18llm-statsAuto-déclaré
SWE-Bench Verified74,4 %35ᵉ / 100llm-statsAuto-déclaré
BrowseComp69,0 %22ᵉ / 51llm-statsAuto-déclaré
Terminal-Bench 2.051,0 %33ᵉ / 48llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ Step-3.5-Flash26.0
Nova 2.0 Pro Preview21.8

Benchable : Hallucinations (Baseline)

▶ Step-3.5-Flash100 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1395128ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,09 $0,3 $0,02 $
stepfun0,1 $0,4 $n.d.
artificialanalysis0,1 $0,3 $0,02 $

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 53,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)1,12 $
Durée d'exécution — PinchBench4 h 02 min
Indice valeur/coût — PinchBench170,77
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable1 h 08 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Step-3.5-Flash affiche des résultats Benchable de tout premier plan sur plusieurs tâches de base, notamment Instruction Following, General Knowledge, Email Classification, Reasoning, Ethics et Hallucinations, toutes classées dans le top 10. Ce profil suggère un modèle solide sur les usages structurés, les consignes explicites, le tri de contenus et les tâches générales où la conformité à l’instruction compte autant que la réponse elle-même. Sa fenêtre de contexte de 262 144 tokens constitue aussi un atout concret pour traiter de longs documents ou de grands historiques. À sa sortie, il se situait dans le top 23% des LLM de sa génération sur SWE-Bench Verified, ce qui le plaçait dans le haut du panier de son époque sur ce benchmark de développement logiciel.

Limites et points d'attention. Malgré ses excellents scores Benchable, Step-3.5-Flash n’apparaît pas comme un modèle de tête sur tous les classements globaux : son Intelligence Index le place plutôt en milieu de tableau, et son rang Arena text reste loin des meilleurs modèles évalués en préférence humaine. La taille de 196 milliards de paramètres peut aussi peser sur l’hébergement malgré un tarif d’inférence très bas. Le modèle convient surtout aux usages nécessitant de grands volumes, une licence ouverte et un coût maîtrisé, plutôt qu’aux scénarios recherchant systématiquement les meilleures performances absolues des modèles haut de gamme.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).