深度推荐模型之Wide & Deep

2021-03-18 751

1 背景

在CTR预估任务中，线性模型仍占有半壁江山。利用手工构造的交叉组合特征来使线性模型具有“记忆性”，使模型记住共现频率较高的特征组合，往往也能达到一个不错的baseline，而且可解释性强。但这种方式有着较为明显的缺点：首先，特征工程需要耗费太多精力。其次，因为模型是强行记住这些组合特征的，所以对于未曾出现过的特征组合，权重系数为0，无法进行泛化。

为了加强模型的泛化能力，研究者引入了DNN结构，将高维稀疏特征编码为低维稠密的Embedding vector，这种基于Embedding的方式减轻了特征工程的负担，而且能够有效提高模型的泛化能力。但是，基于Embedding的方式可能因为数据长尾分布，导致长尾的一些特征值无法被充分学习，其对应的嵌入向量是不准确的，这便会造成模型泛化过度，当基础query-item矩阵稀疏且评分较高时，例如具有特定偏好的用户或具有狭窄吸引力的商品，很难学习有效的query和item的低维表示形式。在这种情况下，大多数query-item对之间不应存在任何交互，但是密集的嵌入向量将导致所有query-item组合的预测都不为零，因此可能泛化过度，做出的推荐的相关性也比较小。

2016年，Google提出Wide&Deep模型，将线性模型与DNN很好的结合起来，在提高模型泛化能力的同时，兼顾模型的记忆性。Wide&Deep这种线性模型与DNN的并行连接模式，后来成为推荐领域的经典模式。

2 模型结构及原理

图中最左边是模型的Wide部分，这个部分可以使用广义线性模型来替代，如LR便是最简单的一种。模型的Deep部分是一个简单的基于Embedding的全连接网络，结构与FNN一致。

2.1 Wide部分

这部分是一个广义线性模型，其中是维特征向量，特征集合包括原始输入特征和转换后的特征。最常用的特征转换函数便是特征交叉函数，当且仅当是第个特征变换的一部分时，。否则为0。例如，对于一个二值特征，特征交叉函数为，当且仅当构成特征中和时该函数值为1，否则为0，即同时具有这两个特征，那么转换后的新特征才为1。这捕获了二元特征之间的相互作用，并为广义线性模型增加了非线性。

Wide部分只能学习这些模式的权重，做一些筛选，而不能自己发现新的模式，需要根据人工经验、业务背景，来将我们认为有价值的、显而易见的特征及特征组合喂入Wide部分。

2.2 Deep部分

Deep部分是全连接网络：。输入的特征分为两类：一类是数值特征(可直接输入DNN)；一类是类别特征(需要经过Embedding之后才能输入到DNN中)。通过增加模型的层数，使要素发生更深层次的交互，提高模型的泛化能力。

2.3 Wide与Deep的结合

将两部分的输出结合起来联合训练，将Wide和Deep部分的输出使用逻辑回归模型做最终的预测：。需要注意的是，因为Wide侧的数据是高维稀疏的，所以作者使用了FTRL算法优化，而Deep侧使用的是Adagrad。

3 思考

适用于Wide部分的特征：高维稀疏特征、人工手动交叉特征；适用于Deep部分的特征：数值类特征、类别特征等
使用L1 FTRL是应对稀疏性一种很好的方法，方法非常注重稀疏性，采用L1 FTRL可以让Wide部分更加稀疏。
Deep部分的输入要么是数值型特征，要么是嵌入向量，不存在严重的稀疏性问题，所以不用特别考虑Deep部分的稀疏性问题。

4 代码实现

模型的实现与模型结构类似由deep和wide两部分组成，这两部分结构所需要的特征在上面已经说过了，针对当前数据集实现，我们在wide部分加入了所有可能的一阶特征，包括数值特征和类别特征的onehot都加进去了，其实也可以加入一些与wide&deep原论文中类似交叉特征。只要能够发现高频、常见模式的特征都可以放在wide侧，对于Deep部分，在本数据中放入了数值特征和类别特征的embedding特征，实际应用也需要根据需求进行选择。

# Wide&Deep 模型的wide部分及Deep部分的特征选择，应该根据实际的业务场景去确定哪些特征应该放在Wide部分，哪些特征应该放在Deep部分
def WideNDeep(linear_feature_columns, dnn_feature_columns):
    # 构建输入层，即所有特征对应的Input()层，这里使用字典的形式返回，方便后续构建模型
    dense_input_dict, sparse_input_dict = build_input_layers(linear_feature_columns + dnn_feature_columns)

    # 将linear部分的特征中sparse特征筛选出来，后面用来做1维的embedding
    linear_sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), linear_feature_columns))

    # 构建模型的输入层，模型的输入层不能是字典的形式，应该将字典的形式转换成列表的形式
    # 注意：这里实际的输入与Input()层的对应，是通过模型输入时候的字典数据的key与对应name的Input层
    input_layers = list(dense_input_dict.values()) + list(sparse_input_dict.values())

    # Wide&Deep模型论文中Wide部分使用的特征比较简单，并且得到的特征非常的稀疏，所以使用了FTRL优化Wide部分（这里没有实现FTRL）
    # 但是是根据他们业务进行选择的，我们这里将所有可能用到的特征都输入到Wide部分，具体的细节可以根据需求进行修改
    linear_logits = get_linear_logits(dense_input_dict, sparse_input_dict, linear_sparse_feature_columns)
    
    # 构建维度为k的embedding层，这里使用字典的形式返回，方便后面搭建模型
    embedding_layers = build_embedding_layers(dnn_feature_columns, sparse_input_dict, is_linear=False)

    dnn_sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), dnn_feature_columns))

    # 在Wide&Deep模型中，deep部分的输入是将dense特征和embedding特征拼在一起输入到dnn中
    dnn_logits = get_dnn_logits(dense_input_dict, sparse_input_dict, dnn_sparse_feature_columns, embedding_layers)
    
    # 将linear,dnn的logits相加作为最终的logits
    output_logits = Add()([linear_logits, dnn_logits])

    # 这里的激活函数使用sigmoid
    output_layer = Activation("sigmoid")(output_logits)

    model = Model(input_layers, output_layer)
    return model

参考资料

Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
DataWhale https://github.com/datawhalechina/team-learning-rs/blob/master/DeepRecommendationModel/Wide%26Deep.md
见微知著，你真的搞懂Google的Wide&Deep模型了吗?
推荐系统系列（六）：Wide&Deep理论与实践

微信关注我们

原文链接：https://my.oschina.net/hbuswstcly/blog/4990319

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

[译]何时以及如何在 Apache Flink 中使用 RocksDB 状态后端

流处理应用程序通常是有状态的，“记住”已处理事件中的信息，并使用它来影响进一步的事件处理。在Flink中，记住的信息，即状态，被本地存储在配置的状态后端中。为了防止发生故障时丢失数据，状态后端会定期将其内容的快照持久化到预先配置的持久存储中。RocksDB状态后端（即RocksDBStateBackend）是Flink中三个内置状态后端之一。这篇博文将引导您了解使用RocksDB管理应用程序状态的好处，解释何时以及如何使用它，并澄清一些常见的误解。尽管如此，这并不是一篇解释RocksDB如何深入工作或如何进行高级故障排除和性能调整的博客文章；如果您需要这些主题中的任何一个的帮助，可以访问Flink用户邮件列表。 Flink中的状态为了更好地理解Flink中的状态和状态后端，区分飞行状态(in-flight state)和状态快照(state snapshots)是很重要的。飞行状态，也称为工作状态，是Flink作业正在处理的状态。它总是本地存储在内存中（有可能溢出到磁盘），并且在作业失败时可能会丢失，而不会影响作业的可恢复性。状态快照，即检查点和保存点，存储在远程持久存储器中，用于在...

2021-03-17

834

一、前期准备项目路径：https://github.com/DTStack/flinkStreamSQL 官方文档：https://github.com/DTStack/flinkStreamSQL/blob/1.11_release/docs/quickStart.md 官方视频：b站（欢迎各位多多三连） https://www.bilibili.com/video/BV1GA411J7RL?from=search&seid=9301258683583870508 《FlinkStreamSQL初步介绍》 https://www.bilibili.com/video/BV14f4y1D7yR?from=search&seid=9301258683583870508 《FlinkStreamSQL的使用和贡献》 Git Clone 项目首先，需要将项目从Github上导入到IDEA中（导入方法较多，这里介绍一种常用的）从IDEA菜单栏里，Git 选项 -> Clone -> FlinkStreamSQL 项目地址，点击Clone即可获取FlinkStr...

2021-03-18

577

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。