阿里云PAI-DeepRec CTR 模型性能优化天池大赛——获奖队伍技术分享

2023-03-21 466

阿里云联合英特尔举办的“创新大师杯”全球AI极客挑战赛——PAI-DeepRec CTR模型性能优化挑战赛已结束，此次大赛旨在DeepRec中沉淀CTR模型新的优化思路和优化方向。为了和大家共享经验成果，邀请获奖队伍分享解题思路，共同推动实际工业实际场景中点击率预估模型的训练效率的提升。

大家好，我们是MetaSpore团队，三位成员孙凯、苏程成、朱亚东均来自北京数元灵科技有限公司，其中苏程成就读于西安交大，曾为数元灵科技实习生。

今年7月中旬，阿里云联合 Intel 启动了“创新大师杯”全球AI极客挑战赛——PAI-DeepRec CTR模型性能优化，全球一共有超过3800支队伍报名参加比赛。经过近 5 个月的努力，我们在保障 6 个经典的 CTR 模型AUC 基本不损失的前提下，将训练效率提升了 3 倍以上，减少了接近 70% 的训练时间。团队在全球初赛和全球复赛都获得了排名第一的成绩，本文将就比赛中的整体思路和具体方案进行阐述。

解题思路

首先必须承认，这是一道比较难的题目。因为 DeepRec 已经集成了来自 Alibaba、Intel、Google等众多优秀工程师的智慧，在这个基础上再进行性能优化，不得不说是一个非常具有挑战性的问题。经过长时间的迭代，团队优化思路如下图所示，主要可以概括为一下 3 个方面：

CTR稀疏模型训练优化：6个模型均为经典的 CTR 稀疏模型，在特征处理、算子等方面可能具有一定的优化空间。
DeepRec训练加速参数调优：DeepRec 本身已经具有有来自 Alibaba 和 Intel 团队的很多优秀的技术沉淀，对模型训练有很多参数都可以进行调优。
DeepRec框架性能优化：这个方面我们觉得可能在编译选项、优化器等方面有一定的空间，以便更好的发挥硬件潜能。

稀疏模型训练优化

1. 选择更快的 GRUCell

对于DIEN模型，我们注意到其使用了GRU，而GRU是串行执行，必然会耗费大量时间，因此我们先把矛头对准了GRU。

阶段一：DIEN使用的是tf.nn.rnn_cell.GRUCell接口，在查阅 tensorflow 官方文档时我们注意到tf.contrib.rnn.GRUBlockCellV2能够有更好的性能。

因此我们将 tensorflow 中的tf.nn.rnn_cell.GRUCell改为了 tf.contrib.rnn.GRUBlockCellV2。tf.nn.rnn_cell.GRUCell是使用 python写的 GRU，因此其反向传播需要计算图层层传递。而tf.contrib.rnn.GRUBlockCellV2用 C++ 编写的，并且实现了 forward 和 backward，因此速度会相对快一点。

阶段二：在 GRU 的优化获得初步收益之后，我们在想能否有替代 GRU的网络结构。之后我们调研了替换 GRU 的方法，发现 SRU 可以在不损失 AUC 的情况下加快模型的训练，相比原始版本速度提升约80s。SRU 论文链接：

https://arxiv.org/pdf/1709.02755.pdf

为什么 SRU 会比较快呢？我们来看GRU与SRU的实现公式：

相比于GRU，SRU 对时序依赖更弱一些，SRU有 3 个步骤依赖于前面的状态，并且依赖 C(t-1) 的操作使用的是 Hadamard 积，计算量更小；论文最后还通过消融实验发现，与C(t-1)相关的 2 个操作可以省略，因此代码实现中并没有粉色部分。

阶段三（未采用）：既然 GRU 能改成 SRU，那 SRU 能否继续优化呢，我们带着这个疑问开始尝试优化SRU，最终我们得到了一个保持 AUC 不变的简化版 SRU，其速度又能够提升 50s 左右。由于并没有严格的理论分析，最终我们并未把这个版本提交上去，不过在代码记录了这个版本。

2. 优化稀疏特征表示

在查看DeepFM 模型的 Timeline 图（下图所示），我们发现其中有大量的 OneHot 算子异常耗时。

我们注意到官方文档中描述embedding_column 速度会更快，而且更适合高维稀疏的类别特征，于是我们将Indicator_column替换为了embedding_column。

对比结果如下：

训练加速参数调优

开启流水线在阅读 DeepRec 文档时，我们注意到了 AutoMicroBatch，它的本质是一个模型训练的流水线，多个MicroBatch 对梯度进行累加后更新至 variable，DeepRec 文档中给出的实测效果下图所示。

我们首先对这五个模型开启 micro_batch 进行了实验，发现Wide & Deep 模型不能使。我们首先对这五个模型开启micro_batch 进行了实验，发现Wide & Deep 模型不能使用 micro_batch，其使用的tf.feature_column.linear_model 接口与 micro_batch 冲突，导致运行crash，如下左图示。因此我们将 Wide & Deep 模型使用的 tf.feature_column.linear_model 进行了重写，如下右图所示。

经过了以上的准备，我们开启了micro_batch 的性能优化。

我们最初对所有模型都设置了相同的 micro_batch_num，经过我们实验，当micro_batch_num = 2时，所有模型都可达到 AUC 要求，相对原始版本速度可以提升900s左右。
当 micro_batch_num 再大一点，DIEN 模型的 AUC 会低于赛题标准，其他几个模型AUC基本没有变化。因此，我们对DIEN 模型进行了特殊处理，也就是给它单独设置一个 micro_batch_num ，最终经过我们实验，我们给DIEN模型 micro_batch_num 设置为 2，其他几个模型采用默认值 8。

对比结果如下：

底层框架性能调优

1. 优化编译选项

在DeepRec比赛教程中给出的编译选项如下

bazel build  -c opt --config=opt  --config=mkl_threadpool --define build_with_mkl_dnn_v1_only=true

该编译选项使用了针对intel处理器进行优化的 mkl_threadpool。tensorflow有很多可配置的编译选项，不同的编译选项会编译出不同性能的框架，经过我们尝试，在本次比赛中，经过优化编译选项，相较原始版本速度提升130s左右。

编译选项如下：

bazel build -c opt --config=opt //tensorflow/tools/pip_package:build_pip_package

对比结果如下：

2. 其他底层优化选项

下面是我们对于其他底层优化的想法与探索：

使用微软开源的 mimalloc 作为内存分配器可以进一步优化性能，实测可以节省 4% 的时间，但由于时间关系我们并未打包提交。
MKL 库有比较多算子可供使用，可以针对不同的算子选择性地调用 MKL，这一方向也由于时间的关系没有来得及完成。

总结

在 DeepCTR 比赛中，我们从稀疏模型、训练加速调优、底层框架调优等 3 个方面出发，主要做了以上 5 点的优化，其中 GRU 算子和稀疏特征的优化灵感来自于团队之前在 MetaSpore 的开发中的技术沉淀。决赛阶段遇到了各路好手，很多问题的切入点独到而新颖，非常有启发性，值得我们学习和借鉴。

最后，将以上所有优化点进行叠加，我们得到如下总运行时间对比图，可以清晰的看到，经过我们的优化，模型训练效率得到 3 倍以上提升，训练时间减少了 70%。

注：以上测试都是在我们本地机器（8核16G）上进行的测试，因此与线上成绩有一定差异。

Github 链接：

https://github.com/meta-soul/DeepRec/tree/tianchi

DeepRec开源地址：

https://github.com/alibaba/DeepRec

微信关注我们

原文链接：https://my.oschina.net/u/5583868/blog/8587012

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

详解目标检测模型的评价指标及代码实现

摘要：为了评价模型的泛化能力，即判断模型的好坏，我们需要用某个指标来衡量，有了评价指标，就可以对比不同模型的优劣，并通过这个指标来进一步调参优化模型。本文分享自华为云社区《目标检测模型的评价指标详解及代码实现》，作者：嵌入式视觉。前言为了了解模型的泛化能力，即判断模型的好坏，我们需要用某个指标来衡量，有了评价指标，就可以对比不同模型的优劣，并通过这个指标来进一步调参优化模型。对于分类和回归两类监督模型，分别有各自的评判标准。不同的问题和不同的数据集都会有不同的模型评价指标，比如分类问题，数据集类别平衡的情况下可以使用准确率作为评价指标，但是现实中的数据集几乎都是类别不平衡的，所以一般都是采用 AP 作为分类的评价指标，分别计算每个类别的 AP，再计算mAP。一，精确率、召回率与F1 1.1，准确率准确率（精度） – Accuracy，预测正确的结果占总样本的百分比，定义如下：准确率=(TP+TN)/(TP+TN+FP+FN) 错误率和精度虽然常用，但是并不能满足所有任务需求。以西瓜问题为例，假设瓜农拉来一车西瓜，我们用训练好的模型对西瓜进行判别，现如精度只能衡量有多少比例...

2023-03-21

477

Scaling Instruction-Finetuned Language Models 论文发布了 FLAN-T5 模型，它是 T5 模型的增强版。FLAN-T5 由很多各种各样的任务微调而得，因此，简单来讲，它就是个方方面面都更优的 T5 模型。相同参数量的条件下，FLAN-T5 的性能相比 T5 而言有两位数的提高。Google 在 Hugging Face 上开源了 5 个 FLAN-T5 的 checkpoints，参数量范围从 8000 万到 110 亿。在之前的一篇博文中，我们已经学习了如何针对聊天对话数据摘要生成任务微调 FLAN-T5，那时我们使用的是 Base (250M 参数) 模型。本文，我们将研究如何将训练从 Base 扩展到 XL (30 亿参数) 或 XXL (110 亿参数)。这意味着我们将学习如何利用模型并行、多 GPU 以及 DeepSpeed ZeRO 来微调 FLAN-T5 XL 和 XXL。除了作为教程的部分之外，我们还跑了一系列实验，这些实验数据可以帮助你选择正确的硬件设置。你可以在结果和实验部分找到详细信息。 # insta...

2023-03-21

549

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

阿里云PAI-DeepRec CTR 模型性能优化天池大赛——获奖队伍技术分享

解题思路

稀疏模型训练优化

训练加速参数调优

底层框架性能调优

总结

详解目标检测模型的评价指标及代码实现

使用 DeepSpeed 和 Hugging Face 🤗 Transformer 微调 FLAN-T5 XL/XXL

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Rocky Linux

Sublime Text

欢迎您来访！