您现在的位置是:首页 > 文章详情

​Qwen 发布全新偏好建模模型系列 WorldPM 模型

日期:2025-05-19点击:92

阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM(World Preference Modeling),包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。

根据官方介绍,该模型通过对1500万条偏好数据的超大规模训练,验证了偏好建模遵循与语言建模相似的规模化定律(scaling laws)。这一发现意味着,随着数据和模型规模的扩展,偏好模型能够学习到统一的偏好表示,从而显著提升模型在监督学习中的表现。

WorldPM-72B系列基于72亿参数规模打造,专为评估和优化其他模型的输出而设计。官方表示,与从零开始训练相比,基于WorldPM进行微调能够显著提升性能,尤其在需要捕捉人类偏好的场景中表现优异。

值得注意的是,WorldPM并非通用的对话模型,而是专注于为其他模型提供偏好评分和优化指导。例如,开发者可以利用WorldPM-72B对生成式AI的回答进行打分,从而提升模型在特定任务上的表现。

原文链接:https://www.oschina.net/news/350611
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章