Yandex 发布全球最大事件数据集,助力推荐系统发展
- Yandex 推出了当前可用的全球最大的推荐系统数据集,推动全球范围内的研究与开发工作。
- 该开放数据集包含通过 Yandex 音乐流媒体服务历时 10 个月收集的 47.9 亿条匿名的用户交互数据(收听、喜欢、不喜欢)。
- 该数据集包含匿名的音频嵌入向量、自然交互标记和精确时间戳,支持用于真实行为分析。
- 引入全局时间分割 (GTS) 评估方法保持事件序列,并配套基线算法作为参考。
- 该数据集在 Hugging Face 平台提供三种规模:50 亿、5 亿和 5000 万事件量级,满足多样化研发需求。
Yandex 发布了 Yambda(Yandex Music Billion-Interactions Dataset,即 Yandex Music 十亿级交互数据集),这是全球最大的推荐系统开放数据集,包含近 50 亿条来自其音乐流媒体平台 Yandex Music 的用户与音轨的匿名交互数据。
Yambda, 全球最大的推荐系统开放数据集
Yambda 可作为通用基准来测试推荐系统的新方法和算法,适用于电子商务、社交网络和短视频平台等所有使用推荐系统的领域。
研究人员可借助该数据集基于其基线模型开发和测试新的推荐算法,从而加速创新进程。数据资源有限的初创企业可以先利用 Yambda 数据集构建和测试系统,然后再扩展规模。这有助于在全球范围内加快特定于业务需求的先进技术开发进程。
弥合研究与产业的鸿沟
训练数据的质量与规模对于流媒体服务、社交网络、短视频应用和电商等平台提供相关的推荐内容而言至关重要。然而,推荐系统领域的研究已落后于大语言模型等迅速发展的领域,其主要原因便是缺乏大规模数据集。效果良好的推荐模型需要 TB 级的行为数据,商业平台虽然拥有这些数据但却极少公开分享。
数据集统计的轨迹分布
研究人员通常只能获得规模较小且过时的数据集,难以反映现代使用场景的复杂性:
- Spotify 的百万歌单数据集对于商业级推荐系统而言规模过小。
- Netflix Prize 数据集包含约 17,000 个项目且时间戳仅包含日期,限制了时序建模和大规模研究。
- Criteo 1TB 点击日志数据集缺乏合适的文档和标识符,且只关注广告点击。
“推荐系统天生与敏感数据紧密相关。企业只有在进行充分的匿名化处理后才能公开发布推荐系统数据集,这一过程会耗费大量资源,减缓了开放创新的步伐。”Yandex 推荐系统负责人 Nikolai Savushkin 解释道。
数据短缺导致了落差的出现:学术表现优异的模型在现实应用中往往表现不佳。将推荐系统与先进架构加以整合的工作也因缺乏合适的训练数据而受限。
Yambda 数据集简介
Yambda 提供的海量匿名数据集来自其月活用户约 2800 万的音乐流媒体服务,解决了推荐系统面临的挑战。 该数据集揭示了用户与 Yandex Music 平台内容的交互方式,该平台以其先进的 My Wave 推荐系统著称,能够根据每位用户的品味定制收听体验。为保护隐私,所有用户和音轨数据均已匿名化,采用数字标识符以符合隐私标准。
数据集统计的用户内容交互历史
数据集主要特性:
- 历时 10 个月收集的 47.9 亿条匿名的用户交互数据。
- 来自 100 万用户的数据以及 939 万条音轨的匿名描述符。
- 包含两种反馈类型:隐式交互(收听)和显式交互(喜欢、不喜欢及其撤销)。
- 提供音频嵌入向量(通过卷积神经网络生成的向量表示)及音轨的匿名信息。
- 设有“is_organic”标记,区分用户是自主发现音轨还是通过推荐发现,便于进行更深入的行为分析。
- 所有事件均带有时间戳,从而支持对用户行为的时序分析,使模型能够在更接近真实使用场景的条件下接受评估。
数据集以 Apache Parquet 格式发布,兼容 Spark、Hadoop 等分布式处理系统和 Pandas、Polars 等分析库。
“Yambda 让研究人员能验证创新性假设,让企业能构建更智能的推荐系统。最终,用户将会受益,能够轻松找到符合需求的的歌曲、商品或服务。”Nikolai Savushkin 补充说道。
数据集版本与评估
Yambda 数据集提供三种规模:约 50 亿、5 亿和 5000 万事件量级,满足需求和算力资源条件不同的研究人员与开发者。
数据集的不同规模
数据集 | 用户数 | 项目数 | 收听数 | 喜欢数 | 不喜欢数 |
Yambda-50M | 10,000 | 934,057 | 46,467,212 | 881,456 | 107,776 |
Yambda-500M | 100,000 | 3,004,578 | 466,512,103 | 9,033,960 | 1,128,113 |
Yambda-5B | 1,000,000 | 9,390,623 | 4,649,567,411 | 89,334,605 | 11,579,143 |
数据集采用全局时间分割 (GTS) 进行评估,该方法按时间戳划分数据以保持事件序列。与留一法 (Leave-One-Out) 从每个用户的历史记录中移除最后一次正向交互以用于测试的做法不同,GTS 避免破坏训练集和测试集之间的时序依赖,模拟了未来数据不可用的现实条件,让模型测试更为真实。
采用全局时间分割 (GTS) 的评估方案
基线实现包括 MostPop、DecayPop、ItemKNN、iALS、BPR、SANSA 和 SASRec,为比较新推荐系统方法提供基准。这些基线通过标准指标进行评估,包括:
- NDCG@k(排序质量)
- Recall@k(检索效果)
- Coverage@k(目录多样性)
“当行业领袖共享宝贵的工具和数据时,所有人都会从中受益:研究人员获得真实的基准,初创企业获得原本只属于科技巨头的资源,全球用户得以享受更优质的个性化体验。”Nikolay Savushkin 补充说道。
Yambda,全球最大的推荐系统开放数据集,现已在 Hugging Face 发布。
Yandex 简介
Yandex 是一家全球性的科技公司,专注于打造由机器学习驱动的智能产品与服务。公司宗旨为帮助消费者和企业更好地应对线上与线下世界的挑战。自 1997 年以来,Yandex 持续提供世界级、本地化的搜索与信息服务,并为全球数百万消费者开发了市场领先的按需出行服务、导航产品及其他移动应用。
My Wave 简介
My Wave 是集成于用户规模达数百万的音乐流媒体服务 Yandex Music 中的个性化推荐系统,采用深度神经模型和 AI 算法分析千余项因素,包括用户交互、可定制的情绪/语言设置,以及对声谱图、频率范围、节奏、声调和流派等的实时音乐分析。通过处理收听历史记录和音轨序列来动态适应用户偏好、识别音频相似性并预测音乐品味,从而提供量身定制的推荐内容

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Anthropic CEO:未来五年 AI 可能取代一半入门级白领工作
在最近的一次采访中,Anthropic 公司的首席执行官 Dario Amodei 发出了一个引人注目的警告。他表示,随着人工智能(AI)技术的快速发展,未来五年内,可能会有一半的入门级白领工作被取代,而失业率则可能飙升至10% 到20%。 Amodei 强调,许多工人并没有意识到这种变化即将到来,很多人对此感到难以置信。 Amodei 指出,AI 技术的进步将使得很多工作从辅助人类转变为完全自动化。他预测,这种转变可能在未来两年内开始显现。随着越来越多的工作被 AI 取代,社会将面临更大的经济不平等,普通人创造经济价值的能力下降将威胁到民主和财富的平衡。 尽管前景严峻,Amodei 依然对 AI 的潜力抱有希望。他提到,AI 不仅可能取代工作,还能在其他领域取得显著进展,例如医疗行业。Amodei 表示,未来可能出现 “治愈癌症、经济增长10%、预算平衡,但20% 的人没有工作” 的局面。 为了应对即将到来的变化,Amodei 提出了一些建议,包括提高公众对 AI 发展的认识,以帮助人们更好地规划自己的职业路径。他还强调了 AI 素养的重要性,呼吁人们学习如何利用 AI 来增强自己的...
- 下一篇
RWKV 社区五月动态:多篇高质量论文、RWKV-8 第一个新特性公布!
欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2025 年 5 月的最新动态。 只需 3 分钟,快速了解 RWKV 社区 5 月都有哪些新鲜事! 5 月动态省流版(TL;DR) RWKV 学术研究动态 新论文:Multi-View Learning with Context-Guided Receptance for Image Denoising(RWKV 图像去噪,已被 IJCAI 主会接收) 新论文:RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization(RWKV 模型量化,已入选 ICML2025) 新论文:QuantumRWKV:Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting(RWKV 量子增强时序预测) 新论文:DualComp: End-to-End Learning of a Unified Dual-Mod...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- MySQL8.0.19开启GTID主从同步CentOS8