飞桨图神经网络PGL助力国民级音乐App,创新迭代千亿级推荐系统
每当夜深人静时,你打开网易云音乐,或听歌刷乐评,或看直播闲聊,享受着以心交心的放松愉悦。在这背后,有一群技术人员苦思冥想地探索着,只为让“云村”越来越懂你。
“不同于一般的聊天文本或图片,音乐本身是跨域数据,具备若干特征,数据维度非常多。而1.8亿月活海量用户的音乐相关数据,带来的计算量、推荐量、参数规模都巨大无比。”网易云音乐机器学习平台技术团队意识到,在这样复杂问题面前,传统机器学习方法渐渐无力招架。
此外,云音乐的直播业务兴起,商业化表现良好,团队的担子更重了,“直播行为与音乐行为差异甚大,这意味着计算量与难度进一步增加。”压力之下,该团队将目光瞄向“图神经网络”,并最终选择应用百度飞桨PGL图神经网络技术来迭代升级云音乐的推荐系统。
推荐系统为何
需要图神经网络?
作为全球知名音乐社区,网易云音乐在繁荣发展的同时,其推荐系统面临三大难题:囊括音乐、歌单、Mlog、直播、云圈、动态等的多域数据;海量用户产出的超大规模数据;超30万音乐人发布歌曲,超28亿用户产生歌单,27%用户交流/生产内容构成的动态数据标签。
传统的机器学习方法需要严格制定一套规范来提取样本,逐项指定样本的各个特征。但云音乐用户产生的多域数据,可能会有若干个特征,加上近2亿的用户规模以及高频率的动态更新,必须进行巨量的计算,机器学习方法的训练效率因此大受限制,变得十分低效。
而图神经网络技术的约束性较小,把每个用户当做点,用户的标签作为边,不同用户之间基于点和边的关联形成网,在此基础上建模分析,因此能更高效地表征、筛选某一类用户。比如,当两位素不相识的宝妈,同样爱听某些亲子歌曲时,她们在“图”中就有可触达的连接,模型会根据这些连接关系学习出合适的表征,并把这些亲子歌曲推荐给相似的用户群体。
事实上,图神经网络已经成为目前互联网企业高效表征用户与内容结构的关键技术。既能基于用户在歌曲、歌单、动态、Mlog等各方面的跨域行为联合建模;又能支持多种行为子图,如深挖用户在歌曲方面的播放、点赞行为;并支持载入用户节点的画像特征与内容节点的类型特征;还支持灵活扩展,如适用音乐业务场景的图神经网络应用能很方便地迁移改造用来支持直播业务场景。
飞桨PGL图神经网络的
三大领先能力
市面上提供图神经网络技术的厂商不少,说起选择百度飞桨PGL的原因,网易云音乐机器学习平台技术团队总结了三点:飞桨PGL支持超大规模数据的全图存储、子图检索、高效图学习三大领先能力。
团队曾经尝试过多家国内外顶级厂商的图神经网络技术,其中两家国际大厂的产品没有现成的分布式编程范式,无法高效地处理超大规模图模型训练当中遇到的图存储、分布式训练等问题,在单机层面顶多支持到千万级别或亿级别,而到了百亿甚至千亿级别,只有飞桨PGL挺住了。
据介绍,云音乐的数据规模非常庞大,数据关系即使经过裁剪也高达千亿级别以上。而飞桨PGL技术,原生支持分布式图存储和分布式采样,可将图的特征存储在不同的Server上,也支持将不同子图的采样分布式处理,并基于PaddlePaddle Fleet API来完成分布式训练,实现在分布式的“瘦计算节点”上加速计算,因而能够为云音乐处理高达百亿级别的大规模数据。
不仅如此,飞桨PGL实现了极低成本的大规模图存储,这让网易云音乐技术团队非常认可。“飞桨PGL的分布式图存储方案比较灵活,适合云音乐,能快速搭起若干个分布式网络,无需专业数据库存储底层能力,存储成本降低70%+。”在4亿节点与400亿边数据这样的场景下,飞桨PGL的分布式图引擎资源,以60弹性节点(4CPU,16GB)的配置,可提供比中心化数据库更简单、更灵活的存储服务。
再者,他们团队还体验到飞桨PGL的另一个优点,即灵活的子图检索模式。飞桨PGL不仅预置常用模式,同时联动分布式图存储引擎,支持自定义子图检索模式,更符合业务实际需求,使用起来更顺手更高效。
飞桨PGL给网易云音乐技术团队印象最深的一次是,用不到30多台闲置老旧CPU机器在1天内训练完100个epoch数百亿边的LightGCN模型。这在业内人士听来可能会有些不可思议。“要是换成过去那种单机方案很难实现,因为内存早已爆掉了,无法存储这么巨大的图。”团队成员介绍道,也许还有其他方案能实现,但飞桨PGL的方案,性价比极高,适合大规模应用。云音乐的推荐系统采用飞桨PGL技术后,在冷门歌曲分发、云村广场、陌生人一起听等多个细分业务场景的效率都有不同程度的显著提升,最高甚至提升了近一倍。
可以说,飞桨PGL所提供的支持超大规模数据的极低成本全图存储、灵活子图检索、高效图学习等能力,在云音乐的工业实践中真正用下来,发现都是能够满足实际需要的。这正是飞桨平台源于产业实践,更适合产业应用的最好证明。
飞桨PGL图神经网络
打开应用新空间
基于超大规模复杂数据的用户与内容理解是许多互联网内容企业所面临的共同课题。而飞桨PGL图神经网络技术在网易云音乐的成功落地,佐证了自身作为企业可用的高性价比超大规模图神经网络方案的强大实力,将助力这些企业高效、低成本地表征用户与内容,创建完善精准推荐机制,做用户的“知心人”,进而催生新形态新模式,从中获取商业收益。
接下来网易云音乐机器学习技术团队还将立足云音乐的实践,探索图神经网络技术与AI的深度融合创新,如构建音乐社区的用户和内容理解中台,以及基于知识图谱的图神经网络落地应用;并计划与飞桨一起反哺开源社区,助推图神经网络技术在产业界广泛落地。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
【JS 逆向百例】某空气质量监测平台无限 debugger 以及数据动态加密
关注微信公众号:K哥爬虫,持续分享爬虫进阶、JS/安卓逆向等技术干货! 声明 本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 逆向目标 目标:某空气质量监测平台无限 debugger 以及请求数据、返回数据动态加密、解密 主页:aHR0cHM6Ly93d3cuYXFpc3R1ZHkuY24v 接口:aHR0cHM6Ly93d3cuYXFpc3R1ZHkuY24vYXBpbmV3L2FxaXN0dWR5YXBpLnBocA== 写在前面 这个站点更新频率很高,在K哥之前也已经有很多博主写了该站点的分析文章,近期有读者问请求数据的加密和返回数据的解密,发现其加解密 JS 变成了动态的,以前的那些文章提到的解决思路不太行了,但整体上来说也不是很难,只不过处理起来比较麻烦一点,还有一些小细节需要注意。 在网站的“关于系统”里可以看到,这个站貌似是个人开发者在维护,最早在2013年就有了,在友情赞助列表里,可以看到大多数都是一些环境、测绘、公共卫生相关的大学专业、研究院人员,可...
- 下一篇
MooTool 1.4.0 发布,开发者常备小工具
MooTool 1.4.0 已发布,这是一个用Java编写的开发者常备桌面小工具集。 更新内容 随手记支持代码高亮 支持从Base64导入图片以及导出图片为Base64 计算器支持千分位数据及表达式中包含tab制表符 时间转换和计算器增加操作历史记录 host切换tab增加搜索和替换功能 部分功能列表增加上下方向键按钮事件 MacOS原生菜单优化 支持的功能 Host切换(支持系统托盘快速切换) 时间转换(时间戳和高可读性本地时间的相互转换,对网上常见的转换页重新设计,支持快速复制,简单高效) Json格式化 发送HTTP请求(支持GET、POST、PUT、DELETE等常用请求方式,支持参数、header、cookie、body等) 编码转换 二维码生成/二维码识别(支持自定义尺寸、纠错级别、logo图片) 加解密/随机 随手记(可以用来快速记录一些:代码片段、常用的SQL、常用的接口、常用的数据、暂存一些临时log等) 计算(四则运算/进制转换/最大公约数/最小公倍数/排列组合数) 网络/IP(ip地址转换/本机ip信息/根据域名获取ip) 调色板(取色器/颜色管理) 计划中的功能...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- MySQL8.0.19开启GTID主从同步CentOS8