StepFun

Step3-VL-10B

Step3-VL-10B est un modèle vision-langage compact de la start-up chinoise StepFun, sorti à la mi-janvier 2026. Contrairement à son grand frère Step3, c'est une architecture dense d'environ 10 milliards de paramètres (et non un Mixture-of-Experts), associant un encodeur visuel maison…

Publié en poids ouverts sous Apache 2.0, il tient sur un seul GPU (environ 24 Go de VRAM) et est proposé gratuitement via OpenRouter, avec l'ambition d'égaler des modèles dix à vingt fois plus gros.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	StepFun
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	15 janvier 2026
Multimodal	oui
Paramètres	10 milliards

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
MMBench	91,8 %	1ᵉ / 9	llm-stats	Auto-déclaré
AIME 2025	87,7 %	49ᵉ / 108	llm-stats	Auto-déclaré
MathVista	84,0 %	5ᵉ / 38	llm-stats	Auto-déclaré
MMMU	78,1 %	15ᵉ / 61	llm-stats	Auto-déclaré
MathVision	70,8 %	14ᵉ / 31	llm-stats	Auto-déclaré
Multi-Challenge	62,6 %	7ᵉ / 28	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. Son rapport intelligence/taille est remarquable : il se hisse au niveau de VLM bien plus volumineux sur la compréhension multimodale (MMMU), les mathématiques visuelles (MathVista) et surtout l'OCR, le grounding et les agents d'interface graphique (ScreenSpot), où il domine sa catégorie de taille. Licence Apache 2.0 et déploiement mono-GPU le rendent très accessible.

Limites et points d'attention. Les scores les plus spectaculaires (par exemple sur AIME ou MathVision) supposent le mode PaCoRe, qui lance seize raisonnements en parallèle : le coût et la latence d'inférence sont alors bien supérieurs au mode standard. Le modèle hérite des forces et des limites de sa base Qwen3-8B, ne produit que du texte, et sa tarification commerciale réelle reste inconnue. Il vise les déploiements VLM compacts, l'OCR et l'automatisation d'interfaces.

Sources des données : LLM-Stats (llm-stats.com).

Step3-VL-10B

Caractéristiques

Performances (benchmarks)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast