韩国电商巨头Coupang 如何利用分布式缓存加速机器学习模型训练-低调大师

韩国电商巨头Coupang 如何利用分布式缓存加速机器学习模型训练

2025-05-27 237

在Alluxio近期举办的线上技术讲座中，Coupang资深后端工程师Hyun Jun Baek 分享了Coupang如何利用分布式缓存加速机器学习模型训练。本文提炼了Hyun分享的核心观点，重点介绍了Coupang的分布式缓存方案如何重塑其跨区域混合云机器学习平台。

👉观看完整视频分享👈

Coupang 是一家《财富》200强科技公司，采用多集群GPU架构来支持AI/ML模型训练。然而，这一架构也带来了诸多挑战，比如：

数据准备耗时与数据拷贝/迁移耗时严重；
GPU资源利用率难以提升；
存储成本居高不下且持续增长；
维护本地化数据孤岛导致运维负担过重。

为解决这些问题，Coupang AI平台团队部署了分布式缓存系统，其创新性体现在：

自动从中央数据湖获取训练数据；
显著提升数据加载性能；
为模型开发者提供统一访问路径；
实现数据生命周期自动管理；
轻松扩展至Kubernetes环境。

新架构带来六大收益：

模型训练速度提升；
存储成本下降；
跨集群GPU利用率提高；
运维成本降低；
训练任务具备可移植性；
相较并行文件系统实现40%的I/O性能提升。

关于Coupang

Coupang (NYSE：CPNG)是一家《财富》200强科技企业, 旗下拥有Coupang、Coupang Eats、Coupang Play和Farfetch等品牌，为全球消费者提供零售、餐饮配送、视频流媒体及金融科技服务。

Coupang AI/ML 平台

机器学习正在深度赋能Coupang的全商业生态，通过产品目录优化、智能搜索推荐、动态定价、机器人技术、库存管理和订单履约等核心环节，持续提升终端用户体验。

Coupang AI/ML 平台提供Notebook与ML工作流编排、模型训练、模型推理、监控和可观测性以及训练和推理集群等核心服务。

图表来源：揭秘Coupang机器学习平台：(https://medium.com/coupang-engineering/meet-coupangs-machine-learning-platform-cd00e9ccc172)

混合云及多区域计算存储架构

为满足对计算资源、运行效率、高I/O吞吐量、开发者体验及云成本优化的内部需求，Coupang平台团队采用AWS多区域云服务与本地GPU集群相结合的混合架构。

这一混合云+多区域策略有助于Coupang 应对全球范围内的GPU短缺问题，确保机器学习训练所需的大规模GPU资源供给。

该架构图展示了GPU AI/ML训练集群在混合云及多区域基础设施中的部署方案。其中，AP region的数据湖作为训练数据的唯一可信源，而GPU训练集群则采用跨云平台与本地环境的混合部署模式。

各集群的计算存储架构存在差异化配置：云端采用托管式Kubernetes服务，而本地环境则部署原生Kubernetes。

多集群GPU架构面临的挑战

该架构面临诸多挑战：

1. 训练任务前的准备步骤（数据拷贝与验证）

在这种分布式 GPU 架构下，Coupang 在调度训练任务之前须进行准备步骤。用户需要将训练数据从数据湖（对象存储）拷贝到训练任务即将运行的集群中。该过程不仅耗时，而且不稳定，尤其是在传输大量数据时常常导致延迟。

由于训练数据必须预先拷贝至任务所在的GPU集群，导致分布式基础设施中的GPU资源难以得到充分利用。例如，如果某训练任务最初分配至us-region集群，后续需要重新分配到其他集群时，必须先将数据完整拷贝至新集群才能启动任务。

2. I/O 瓶颈导致 GPU 资源利用率低下

训练数据拷贝至GPU集群所在区域后，通常存储在性能较低的存储系统中。这类存储无法提供足够的吞吐量来充分释放GPU算力，造成GPU利用率低下。

尽管云服务商提供性能更优的并行文件系统，但其成本高昂且无法有效扩展。

3. 管理数据孤岛的成本与运维复杂度不断增长

将数据拷贝到多个GPU集群会形成数据孤岛，从而增加存储成本。

存储维护带来巨大的运维负担。作为平台团队内部用户的ML工程师，常常未能及时删除冗余数据，导致磁盘空间不足问题频发。这不仅增加了平台团队的管理复杂度，还会导致训练任务失败。

基于分布式缓存的新架构

Coupang的新型分布式缓存架构通过以下方式解决了上述挑战：

实现数据即时可用：自动从数据湖提取数据至各集群，彻底消除冗长的数据准备环节
提升跨区域GPU利用率：无需数据拷贝即可灵活调度训练任务至任意集群
提供更高I/O吞吐与更低延迟：性能超越传统文件存储及并行文件系统

在云环境中，分布式缓存层部署在配有 NVMe 存储的实例上，而在本地部署中，则使用配有 NVMe 磁盘的 CPU 节点。

分布式缓存通过仅缓存热数据而非存储整个数据集，来降低存储成本。同时，它还消除了运维负担，因为缓存会自动管理数据生命周期，ML工程师无需手动删除冗余数据。

Kubernetes Operator 简化了在整个 GPU 架构中部署和管理分布式缓存方案的过程，确保配置一致，并加快了新集群的部署速度。

分布式缓存工作原理

分布式缓存的部署方式

FUSE pod 为训练任务提供符合POSIX标准的文件系统接口。这些 pod 通过 hostPath 卷（如 /mnt/cache-fuse）挂载到训练任务的容器中，使任务能够直接访问缓存数据和底层数据湖，无需修改代码或了解缓存的内部机制。

每个 FUSE pod 会将 I/O 请求转发给一组后端 worker pod，由它们负责实际的数据读写操作。这些 worker pod 通常在配备 NVMe 磁盘的实例上运行，能够以高吞吐量访问存放热数据的本地存储池。

当请求的 page 不在缓存中（即发生缓存未命中）时，worker pod 会从底层数据湖中获取数据。一旦获取完成，数据将被缓存在本地，从而大幅加速后续的数据访问。

为了保持一致性并支持服务发现，etcd Pod 在整个缓存集群中管理挂载表和 Worker 成员信息。这确保了在不同部署中数据路径的一致性。例如，“bucket A” 中的文件始终可以通过 /data/bucket_a 访问，无论是在什么集群或节点上。这一机制实现了训练脚本的无缝可迁移性。模型开发者（即平台的用户）可以在任何有可用计算资源的地方运行训练脚本，而无需修改代码中的数据路径。

采用分布式缓存的优势

对模型开发者的价值

数据即时可用：

新的架构让模型开发者能够立即执行训练任务，无需等待数据拷贝或缓存，训练作业可即时启动。

2. 无需修改代码，无缝跨区域访问数据：

该架构提供统一的数据抽象，所有集群都通过相同的路径访问数据，实现跨区域的无缝访问。由于代码具备可移植性，用户可以在任何有计算资源的地方运行训练脚本，而无需修改代码。

3. 提升 GPU 利用率：

在 GPU 使用高峰时段，工程师可以将训练任务提交至备用 GPU 集群，无需手动拷贝训练数据，从而确保更高的GPU资源总利用率。

4. 更快的训练速度：

根据性能测试结果，该分布式缓存方案相比云服务商提供的并行文件系统，在 I/O 性能方面提升约 40%。

对平台工程师的价值

降低存储与运维成本：

对于平台工程师来说，新架构可避免采购全量存储并消除数据湖中的重复数据集，从而降低存储成本。
此外，缓存可自我管理，无需协调清理缓存空间。平台还开发了内部工具，帮助用户自行加载缓存，从而在训练前预热缓存，提升训练过程中的 I/O 吞吐性能。

2. 轻松扩容与运维：

该架构可通过 Kubernetes 进行管理，使得在不同环境中的部署、扩容和维护简单高效、无缝衔接。

总结

Coupang 全新的分布式缓存架构带来了诸多优势，包括加速模型训练、提升运行效率、降低存储成本、提高GPU 利用率以及减少运维开销。此外，该架构还大幅提升了模型开发者的使用体验，可灵活调度任意可用GPU资源，免去了旧架构中为将数据加载至 GPU 集群所需的繁琐准备步骤。

微信关注我们

原文链接：https://my.oschina.net/u/5904778/blog/18490152

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

「DeepSeek 技术解析」：LLM 训练中的强化学习算法

编者按：本文首先解析了为什么 LLM 训练需要强化学习，详细讲解了 RL 和 RLHF 的工作原理；继而系统比较基于价值、基于策略和 Actor-Critic 三大强化学习范式的优缺点；最后深入剖析 TRPO 和 PPO 算法，重点展示 GRPO 如何通过分组结构和相对优势估计实现训练效率与稳定性的双重突破。作者 | Shirley Li 编译 | 岳扬这是 DeepSeek 系列文章的第六篇，我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一[1, 2]：群组相对策略优化（Grouped Relative Policy Optimization，GRPO）[3]。为确保本文自成体系并阐明 GRPO 的理论基础，我们将首先介绍强化学习的基础概念，重点解析强化学习（RL）及基于人类反馈的强化学习（RLHF）在 LLM 训练中的核心作用。接着我们将探讨不同的强化学习范式，包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习，回顾经典算法如置信域策略优化（TRPO）和近端策略优化（PPO），最后解析 GRPO 带来的优化创新。本文目录结构： ...

2025-05-27

418

作者：傅聪，检索算法 NSG 作者，向量检索专家，《业务驱动的推荐系统:方法与实践》作者，浙江大学计算机博士，美国南加州大学访问学者公众号：傅聪Cong 向量检索算法，作为AI时代基础设施——向量数据库的核心组件，已被广泛应用于各类由AI模型驱动的搜索场景中，例如推荐系统召回、搜索引擎召回、以图搜图、语音检索、人脸识别与匹配、RAG（Retrieval-Augmented Generation）等。然而，深入了解相关研究进展后我们会发现，当前面向最小欧式距离（Minimal Euclidean distance）检索和面向最大内积（Maximum Inner Product）检索的算法之间，存在一条难以跨越的技术鸿沟。这种割裂，正是许多朋友向我吐槽“向量检索门槛太高”的根本原因之一。大多数使用向量数据库的用户，其实并不关心生成向量的AI模型是如何训练的，也不太在意该选择什么样的模型架构或向量度量方式——他们只想知道一件事：到底该用哪种算法、哪种度量方式，效果最好？但当用户去查阅资料或请教研究者时，得到的回答往往是：“这个模型适合用欧式距离”、“那个模型用最大内积效果更好”，甚至...

2025-05-27

432

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。