首页 文章 精选 留言 我的

精选列表

搜索[优化],共10000篇文章
优秀的个人博客,低调大师

网易云音乐:基于飞桨分布式图学习 PGL 的推荐系统优化之路

在“精准推荐者得民心”的今天,推荐系统已成为各大互联网公司的标配。但由于现实中很多数据是非欧氏空间生成的(例如,社交网络、信息网络等),一些复杂场景下的业务需求很难通过协同过滤等基于历史行为挖掘用户或产品相似性的传统算法来满足。图神经网络作为一种约束性较少、极其灵活的数据表征方式,在深度学习各主要领域中崭露头角,一系列图学习模型涌现并得到越来越多的应用。 网易云音乐在推荐领域的探索 作为国民级的音乐App,网易云音乐很久之前就将定位从传统的音乐工具软件转移到音乐内容社区,致力于联结泛音乐产品与用户,打造最懂用户的音乐 App。在音乐内容社区中,直播可以说是用户参与度极高的场景了,云音乐内部投入了大量的人力物力以求将匹配度更高的主播推荐给用户,但仍然面临多重严峻的挑战。 如何破解历史行为稀少的用户冷启动问题 众所周知,推荐系统的整体框架主要包括召回、粗排和精排3个部分。其中,最底层的召回模型具有举足轻重的作用,而成功的召回推理需要依赖充足的历史数据。但在云音乐的业务场景中,通过站内广告看到直播推荐的用户很大比例是直播功能的新用户,即没有产生过观看直播行为数据的用户。如何向这类数据稀疏的用户推荐合适的内容成了亟待解决的难题,这类问题也通常被称为冷启动。 大规模图模型如何训练 云音乐现有计算资源已全面实现容器化部署,对于各个业务团队来说,计算资源都是有限的,需要以最高效合理的方式利用有限的资源。如何在有限的分布式资源调控策略下低本高效地完成大规模图神经网络的模型训练,成为必须攻克的难题。 PGL图神经网络助力推荐场景落地 为了解决以上问题,网易云音乐的研发团队调研了大量开源方案,最终选择了对大规模图训练更加友好的百度飞桨分布式图学习框架PGL,作为云音乐的基础框架。 基于PGL的行为域知识迁移解决冷启动问题 云音乐直播场景的新用户中,有很多在音乐、歌单、Mlog 等业务中产生过较丰富的历史行为,能否通过将这部分历史行为知识映射到直播领域,来解决“行为”数据不足的问题呢? 带着疑问,云音乐引入了图模型结构,以多种不同类型的实体(如歌曲、DJ、Query、RadioID 等)为节点,通过用户与主播、用户与歌曲、Query与主播等历史行为关系,构建了一张统一的图关系网络。 然后,基于飞桨图学习框架 PGL对图模型进行训练。先采用 DeepWalk、Metapath2Vec、GraphSage等模型学习出足够强大的Graph Embedding表示来建模实体ID;再通过向量召回,将用户在歌曲、Query等处的行为迁移到主播领域,达到召回合适主播的目的。 基于PGL通用的分布式能力进行训练 云音乐的数据规模非常庞大,数据关系即使经过裁剪也高达亿级别以上。在常用的硬件资源配备情况下,此等量级规模的数据早已成为某些开源的图神经网络框架的瓶颈,需要使用极其昂贵的计算资源才能解决。对于数据规模必将持续增大的云音乐来说,相较于使用什么类型的模型,能否在这种数据规模下训练出模型才是优先要考虑的关键问题,也是网易云音乐与PGL成功牵手的关键因素! 百度飞桨深度学习平台PaddlePaddle 2019年开源的分布式图学习框架PGL,原生支持图学习中较为独特的分布式图存储(Distributed Graph Storage)和分布式采样(Distributed Sampling),可以方便地通过上层Python接口,将 图的特征(如Side Feature等)存储在不同的Server上,也支持通用的分布式采样接口,将不同子图的采样分布式处理,并基于PaddlePaddle Fleet API来完成分布式训练(Distributed Training),实现在分布式的“瘦计算节点”上加速计算。这些能力对云音乐内容社区直播推荐遇到的训练问题来说,极具魅力! 实验对比显示,在主播推荐场景采用图计算带来有效观看大幅提升,尤其在新用户和新主播冷启动上引入其它域数据后有了明显提升。 想了解更多落地细节和实战经验 3月16日,网易云音乐机器学习平台与框架负责人段石石,将在飞桨B站直播间分享深度学习实战进阶课程《图神经网络在云音乐业务落地》。除了上面提到的数据稀疏性、冷启动召回和大规模分布式训练等业务难题的解决方案,段老师还将分享云音乐如何应对训练数据质量、瘦计算节点等技术挑战。 3月17日,百度高级算法工程师苏炜跃将分享《分布式图学习框架PGL及其推荐应用》,重点介绍图学习算法的理论基础、图学习框架PGL的特点和优势;同时将通过演示经典大规模推荐场景的图学习训练过程,帮助大家快速学习和实现产业级的图模型实践。 扫描下方二维码,加入技术交流群 想了解更多落地细节和实战经验,3月16、17日20:10-21:30锁定AI快车道x网易云音乐直播课,我们不见不散! 飞桨图学习框架PGL PGL是业界首个提出通用消息并行传递机制,支持百亿规模巨图的工业级图学习框架。PGL基于飞桨动态图全新升级,极大提升了易用性,原生支持异构图,覆盖30+图学习模型,包括图语义理解模型ERNIESage等,历经大量真实工业应用验证。另外,基于飞桨深度学习框架的分布式Fleet API,建立分布式图存储及分布式学习算法,实现灵活、高效地搭建前沿的大规模图学习算法。 更多资料请关注 PGL图学习框架Github代码仓库:https://github.com/PaddlePaddle/PGL 飞桨推荐系统:https://github.com/PaddlePaddle/paddlerec 飞桨分布式:https://www.paddlepaddle.org.cn/tutorials/projectdetail/1499143 https://fleet-x.readthedocs.io/en/latest/ 飞桨深度学习框架Github代码仓库:https://github.com/PaddlePaddle/Paddle 对于想要了解图神经网络及其分布式应用的小伙伴,可以围观PGL团队倾力开发的图神经网络课程,带你七天高效入门:https://github.com/PaddlePaddle/PGL/tree/main/course 如感觉不错,欢迎“Star”;如需交流,欢迎“Issue”,我们将及时反馈;如您有基于飞桨的产业落地案例,欢迎发送至邮件paddle-up@baidu.com。 报名链接:https://paddle.wjx.cn/vj/PjtFcAc.aspx?udsid=736427

优秀的个人博客,低调大师

优化 Docker 体验,Docker Registry-V2 加入 OCI 促进行业标准化

本文首发自“Docker公司”公众号(ID:docker-cn)编译丨小东每周一、三、五 与您不见不散! 我们很高兴地宣布,Docker Registry HTTP API V2 规范将在 Open Container Initiative (OCI) 中采用。OCI由 linux 基金会进行管理,致力于制定容器化产业标准。Docker 团队很自豪地看到应用栈的另一个方面成为行业标准。正如我们对镜像格式所做的那样,我们很乐意作为 OCI 社区的一部分,正式与容器生态系统共享和协作。我们的分发协议是市场上所有容器注册管理机构的基础,它非常的强大,容器内容遍布全球。 这个协议是什么? 通过这个协议我们可以看到,Docker 核心功能之一就是能够上传和下载镜像。这个概念从创建最初的“Hello, World”容器开始就已经介绍给了每个用户,而且它占了 Docker 体验的很大一部分。我们时常坐在电脑前感叹这个神奇的概念,这种简单的能力很容易被人忽视其中大量的设计与思考。 当 Docker 首次发布时,团队就制定了 Image Registry 的协议,并很快投入使用。Image Registry 提供了一种可以跨机器存储镜像的通用服务。它可以让用户在一台机器上构建镜像,然后在另一台机器下载这个镜像,并在这台机器上运行该镜像。现在有一种很方便、快捷的方法拉取并运行整个软件。这个实现为 Docker Hub 提供动力,并最终实现开源(https://github.com/docker/docker-registry)。这个协议和它背后的实现最终被称为 V1 协议。许多镜像都可以被上传和下载,深受开发人员喜爱。 演 化 上传和下载镜像持续不断,但是随着用户用其他的 Registry 来使用 Docker 时,V1 协议的问题就出现了。问题的核心围绕着 Registry 之间共享身份的概念,以及与 Docker 实现的耦合度过紧。问题在于,如果一个 Docker 引擎从两个不同的 Registry 获取镜像,那么 Docker 引擎可能会对镜像的身份标签产生分歧。我们需要修改一些东西确保用户使用多个 Registry 时不会出现问题。 到 2014 年底,Docker 通过引入具有初始 API 结构的提案来解决这些问题。问题的关键是设计出具有 Content—addressable 的镜像,它允许 Registry 为镜像提供通用的身份标签,并去除镜像格式内部细节与 Docker 引擎之间的耦合性,从而使其能够独立发展。社区聚集在一起,就该提案提出了140条意见,并纳入了规范和实施。这一努力的结果是,在2015年春季发布了 Docker Registry 2.0,并在 Docker 1.6 版本中支持 GA。自此之后,Docker 社区就发展起来了,并一直致力于满足用户不断增长的需求。 下一步 随着 Docker 的普及,该协议已在整个行业中得到了广泛应用,并在各种各样环境中进行了测试。该协议与诸如签名和验证等补充技术相结合,就如同 Docker EE 一样。通过将此规范捐献给 OCI,我们可以确保容器体验的这一重要部分成为 OCI 官方标准。随着对分发规范提案的认可,该协议将作为 OCI 的一部分推动容器行业蓬勃发展。

资源下载

更多资源
腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。

用户登录
用户注册