StepFun

Step-3.5-Flash

Step-3.5-Flash est un LLM de StepFun publié le 2 février 2026, avec des poids ouverts sous licence Apache 2.0 et un usage commercial autorisé. Le modèle se distingue par une très grande fenêtre de contexte et un positionnement tarifaire très économique, nettement sous la moyenne des LLM…

Avec 196 milliards de paramètres, Step-3.5-Flash vise un compromis entre ampleur, coût d’usage et disponibilité open-weights. Son prix est annoncé 95% sous la moyenne des modèles similaires et environ 53.7 fois inférieur à celui des modèles frontière, ce qui en fait un profil orienté volume et expérimentation à coût réduit.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	StepFun
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	2 février 2026
Multimodal	non
Paramètres	196 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	26.0	75ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	100,0 %	1ᵉ / 252	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	100,0 %	1ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	91,9 %	96ᵉ / 248	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	79,4 %	14ᵉ / 52	pinchbench	✅ Mesuré
AIME 2025	97,3 %	12ᵉ / 108	llm-stats	Auto-déclaré
Tau-bench	88,2 %	1ᵉ / 6	llm-stats	Auto-déclaré
LiveCodeBench v6	86,4 %	8ᵉ / 53	llm-stats	Auto-déclaré
IMO-AnswerBench	85,4 %	8ᵉ / 18	llm-stats	Auto-déclaré
SWE-Bench Verified	74,4 %	35ᵉ / 100	llm-stats	Auto-déclaré
BrowseComp	69,0 %	22ᵉ / 51	llm-stats	Auto-déclaré
Terminal-Bench 2.0	51,0 %	33ᵉ / 48	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Step-3.5-Flash26.0

Nova 2.0 Pro Preview21.8

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Step-3.5-Flash100 %

Nemotron Nano 9B v298 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1395	128ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,09 $	0,3 $	0,02 $
stepfun	0,1 $	0,4 $	n.d.
artificialanalysis	0,1 $	0,3 $	0,02 $

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 53,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	1,12 $
Durée d'exécution — PinchBench	4 h 02 min
Indice valeur/coût — PinchBench	170,77
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	1 h 08 min

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Step-3.5-Flash affiche des résultats Benchable de tout premier plan sur plusieurs tâches de base, notamment Instruction Following, General Knowledge, Email Classification, Reasoning, Ethics et Hallucinations, toutes classées dans le top 10. Ce profil suggère un modèle solide sur les usages structurés, les consignes explicites, le tri de contenus et les tâches générales où la conformité à l’instruction compte autant que la réponse elle-même. Sa fenêtre de contexte de 262 144 tokens constitue aussi un atout concret pour traiter de longs documents ou de grands historiques. À sa sortie, il se situait dans le top 23% des LLM de sa génération sur SWE-Bench Verified, ce qui le plaçait dans le haut du panier de son époque sur ce benchmark de développement logiciel.

Limites et points d'attention. Malgré ses excellents scores Benchable, Step-3.5-Flash n’apparaît pas comme un modèle de tête sur tous les classements globaux : son Intelligence Index le place plutôt en milieu de tableau, et son rang Arena text reste loin des meilleurs modèles évalués en préférence humaine. La taille de 196 milliards de paramètres peut aussi peser sur l’hébergement malgré un tarif d’inférence très bas. Le modèle convient surtout aux usages nécessitant de grands volumes, une licence ouverte et un coût maîtrisé, plutôt qu’aux scénarios recherchant systématiquement les meilleures performances absolues des modèles haut de gamme.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Step-3.5-Flash

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast