阶跃星辰推理模型 Step R-mini 上线
阶跃星辰自研推理模型 Step Reasoner mini(简称“Step R-mini”)宣布正式上线。用户可登录跃问网页端 https://yuewen.cn 进行体验。
Step Reasoner mini 是 Step 系列模型家族的首个推理模型,擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。
公告指出,在 AIME 和 Math 等数学基准测试上,Step Reasoner mini 的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比o1-preview 效果更佳。
Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。
