阶跃星辰宣布开源 Step3-VL-10B,包括 Base 模型和 Thinking 模型,性能超越 20 倍大模型。
公告称,仅用 10B 参数量,Step3-VL-10B 在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模 SOTA 水平,并且解决了参数量小和智能水平高难以兼优的行业难题。
在多项关键评测中,Step3-VL-10B 媲美甚至超越规模大 10-20 倍开源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。
基于这样一个小而强底座,原本只能在云端运行的复杂多模态推理(如 GUI 操作、复杂文档解析、高精度计数)能够下沉到手机、电脑甚至工业嵌入式设备中。
Step3-VL-10B 具备三大核心亮点:
-
极致视觉感知标杆:在同参数量级中展现出顶尖的识别与感知精度。通过引入 PaCoRe(并行协调推理) 机制,模型在复杂计数、高精度 OCR 及空间拓扑理解等高难度任务上的可靠性实现了质的飞跃。
-
深层逻辑推演与长程推理:得益于规模化强化学习(RL)的持续迭代,Step3-VL-10B 在 10B 规模上实现了跨任务推理能力的阶跃。无论是竞赛级数学难题、真实编程环境还是视觉逻辑谜题,模型均能通过严密的多步思维链推导出最终答案。
-
强大端侧 Agent 交互:基于海量 GUI(图形用户界面)专用预训练数据,模型能够精准识别并操作复杂界面,成为端侧 Agent 的核心引擎。
Step3-VL-10B 提供 SeRe(顺序推理)和 PaCoRe(并行协调推理)两种范式,在STEM 推理、识别、OCR & 文档、GUI Grounding、空间理解、代码等核心维度,都取得了千亿级别模型的优秀分数,PaCoRe范式表现更优。
![]()
![]()
![]()
![]()
更多详情可查看官方公告。