PaddleBox:百度基于GPU的超大规模离散DNN模型训练解决方案
作者 | 焦学武、李淼 导读 本文介绍百度基于GPU的超大规模离散DNN训练框架PaddleBox。PaddleBox 打造了业界首个层次化GPU稀疏参数服务器,结合高效的流水线调度架构,以及多机多卡的分布式架构,支持单机10TB级/多机数十TB模型训练,具备低成本、高性能、高稳定、灵活易用的多重优势。PaddleBox于2019在百度凤巢首次上线,目前已在百度广告系统全面落地,覆盖搜索广告、信息流广告、联盟广告业务,相比传统CPU解决方案,资源性价比提升5~40倍。 注:本文基于2020年百度内网文章修改而成。 全文5246字,预计阅读时间24分钟。 01 超大离散DNN模型训练的背景与挑战 精准的广告是很多互联网产品重要的盈利方式之一,基于海量数据的广告系统能够很好的匹配用户的意图,为用户带来良好产品体验,同时提升商业变现效率。CTR预估模型是广告系统中非常重要的一环,被誉为“镶嵌在互联网技术上的明珠”,而高效稳定的训练框架则是CTR模型日常迭代更新的基石。 近年来深度学习迅猛发展,百度早在2014年就已经将DNN模型应用到广告系统,是国内首个将大规模DNN用在广告领域并取得了良好...

