您现在的位置是:首页 > 文章详情

阶跃星辰发布多模态推理模型 Step-R1-V-Mini

日期:2025-04-09点击:13

阶跃星辰宣布推出全新多模态推理模型 Step-R1-V-Mini,支持图文输入、文字输出、有良好的指令遵循和通用能力,能够高精度感知图像并完成复杂推理任务。

技术亮点

为了提升模型在多模态协同场景下的推理表现,开发团队在训练方法上做了两项重要尝试:

  • 第一,多模态联合强化学习

Step-R1-V-Mini 的训练路径基于 PPO 强化学习策略,在图像空间引入 verifiable reward 来解决图片空间推理链路复杂、容易产生混淆的相关和因果推理错误的问题。相较 DPO 等方法,在处理图像空间的复杂链路时更具泛化性与鲁棒性。

  • 第二,充分利用多模态合成数据

目前多模态数据的反馈信号相对难以获得。设计了大量基于环境反馈的多模态数据合成链路,合成了可规模化训练的多模态推理数据,并通过基于 PPO 的强化学习训练同步提升模型文本和视觉的推理能力,有效避免了训练跷跷板问题。

公告称,Step-R1-V-Mini 在多个公开榜单中表现亮眼,在 MathVision 视觉推理榜单位列国内第一,在视觉推理、数学逻辑和代码等方面表现优异。

目前,Step-R1-V-Mini 已正式上线阶跃AI 网页端,并在阶跃星辰开放平台提供 API 接口。

原文链接:https://www.oschina.net/news/343509
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章