您现在的位置是:首页 > 文章详情

快手开源

日期:2025-06-04点击:30

快手 Kwaipilot 团队宣布开源 KwaiCoder-AutoThink-preview 自动思考大模型,针对近期深度思考大模型存在的“过度思考”问题进行了深入研究。

团队不仅提出了一种全新的自动思考模型训练范式,还基于传统强化学习算法(GRPO),创新性地提出了带有过程监督的强化学习方法 Step-SRPO,以进一步提升模型在复杂任务中的表现。

该模型融合了”思考“和”非思考“能力,并具备根据问题难度自动切换思考形态的能力。通过进行这种思考形态训练,模型在多个“思考”和“非思考”评测榜单上均实现了性能提升,其中在部分代码和数学类的任务上,开启自动思考模式下的模型得分提升高达20分左右。更有趣的是,在部分榜单中,即使模型没有开启思考模式,受益于更优的推理形态,性能也有小幅上涨。

Kwaipilot 团队表示,未来将基于 preview 版本模型,进一步增强推理能力,支持更完善的思考中工具使用能力,并将全部技术细节、训练方法开源。

模型开源地址:https://huggingface.co/Kwaipilot/KwaiCoder-AutoThink-preview

原文链接:https://www.oschina.net/news/353578
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章