Qwen 发布全新偏好建模模型系列 WorldPM 模型
阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM(World Preference Modeling),包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。
根据官方介绍,该模型通过对1500万条偏好数据的超大规模训练,验证了偏好建模遵循与语言建模相似的规模化定律(scaling laws)。这一发现意味着,随着数据和模型规模的扩展,偏好模型能够学习到统一的偏好表示,从而显著提升模型在监督学习中的表现。
WorldPM-72B系列基于72亿参数规模打造,专为评估和优化其他模型的输出而设计。官方表示,与从零开始训练相比,基于WorldPM进行微调能够显著提升性能,尤其在需要捕捉人类偏好的场景中表现优异。
值得注意的是,WorldPM并非通用的对话模型,而是专注于为其他模型提供偏好评分和优化指导。例如,开发者可以利用WorldPM-72B对生成式AI的回答进行打分,从而提升模型在特定任务上的表现。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
腾讯:QQ 浏览器升级为 AI 浏览器
腾讯公众号消息,腾讯QQ浏览器升级为AI浏览器,全新推出QBot,搭载腾讯混元和DeepSeek双模型。 目前涵盖AI搜索、AI浏览、AI写作、AI办公、AI学习五大功能。此外,QBo 还集合了多个Agent执;首批正在灰度的Agent包括行业首个高考Agent“AI高考通”、下载助理、更新助理、股票助理。 腾讯公司公关总监张军也发博晒出新页面称:“QQ浏览器今天全面升级,4 亿用户光速进入AI时代。”
- 下一篇
OR算法+ML模型混合推理框架架构演进
本文介绍了OR算法+ML模型混合推理能力建设思路及业务背景,此场景相比常规模型推理更具特殊性和复杂性,在工程实现上面临多维挑战,因此本文分别从性能、稳定性和扩展性三个维度分析问题和解法,并以推理框架架构演进为线总结了过去两年的分期迭代实践历程和收益,其中有一些较为通用的经验,希望能够给大家带来一些帮助或启发。 1 背景 调度系统主要职责是需要在合适的时间以合适的方式将合适的运单分给合适的骑手,承载着海量的调度规模。为追求更高用户体验,需要在强时间约束下完成每一轮次的调度任务,对性能极度敏感;其中计算密集的运筹学算法(Operations Research,OR)和机器学习模型(Machine Learning,ML)是主要性能热点,如OR部分计算量最大的「路径规划算法」和ML部分计算量最大的「送达时间预估深度学习模型(ETR)」计算量占比60%以上,若使用远程CPU承载此计算,集群规模将在万台以上,长尾问题明显,运维压力和资源成本难以控制。 因此,在调度系统工程架构中引入GPU硬件并通过手写CUDA算子的方式来加速这些性能热点,在模块级取得了较好的加速效果[1],与此同时在系统级出现面...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境