Step3-VL-10B
Step3-VL-10B est un modèle vision-langage compact de la start-up chinoise StepFun, sorti à la mi-janvier 2026. Contrairement à son grand frère Step3, c'est une architecture dense d'environ 10 milliards de paramètres (et non un Mixture-of-Experts), associant un encodeur visuel maison…
Step3-VL-10B est un modèle vision-langage compact de la start-up chinoise StepFun, sorti à la mi-janvier 2026. Contrairement à son grand frère Step3, c'est une architecture dense d'environ 10 milliards de paramètres (et non un Mixture-of-Experts), associant un encodeur visuel maison PE-lang de 1,8 milliard à un décodeur Qwen3-8B. Il accepte images et texte, produit du texte.
Publié en poids ouverts sous Apache 2.0, il tient sur un seul GPU (environ 24 Go de VRAM) et est proposé gratuitement via OpenRouter, avec l'ambition d'égaler des modèles dix à vingt fois plus gros.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | StepFun |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 15 janvier 2026 |
| Multimodal | oui |
| Paramètres | 10 milliards |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| MMBench | 91,8 % | 1ᵉ / 9 | llm-stats | Auto-déclaré |
| AIME 2025 | 87,7 % | 49ᵉ / 108 | llm-stats | Auto-déclaré |
| MathVista | 84,0 % | 5ᵉ / 38 | llm-stats | Auto-déclaré |
| MMMU | 78,1 % | 15ᵉ / 61 | llm-stats | Auto-déclaré |
| MathVision | 70,8 % | 14ᵉ / 31 | llm-stats | Auto-déclaré |
| Multi-Challenge | 62,6 % | 7ᵉ / 28 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Notre analyse
Forces. Son rapport intelligence/taille est remarquable : il se hisse au niveau de VLM bien plus volumineux sur la compréhension multimodale (MMMU), les mathématiques visuelles (MathVista) et surtout l'OCR, le grounding et les agents d'interface graphique (ScreenSpot), où il domine sa catégorie de taille. Licence Apache 2.0 et déploiement mono-GPU le rendent très accessible.
Limites et points d'attention. Les scores les plus spectaculaires (par exemple sur AIME ou MathVision) supposent le mode PaCoRe, qui lance seize raisonnements en parallèle : le coût et la latence d'inférence sont alors bien supérieurs au mode standard. Le modèle hérite des forces et des limites de sa base Qwen3-8B, ne produit que du texte, et sa tarification commerciale réelle reste inconnue. Il vise les déploiements VLM compacts, l'OCR et l'automatisation d'interfaces.
Sources des données : LLM-Stats (llm-stats.com).