TensorFlow系列专题（十一）：RNN的应用及注意力模型-低调大师

TensorFlow系列专题（十一）：RNN的应用及注意力模型

2018-11-27 706

目录：

●  循环神经网络的应用
●  文本分类
●  序列标注
●  机器翻译
●  Attention-based model
●  RNN 系列总结
●  循环神经网络的应用

目前循环神经网络已经被应用在了很多领域，诸如语音识别（ASR）、语音合成（TTS）、聊天机器人、机器翻译等，近两年在自然语言处理的分词、词性标注等工作的研究中，也不乏循环神经网络的身影。在本节中，我们将介绍几个较为典型的循环神经网络的应用，以此来了解循环神经网络是如何与我们实际的应用场景所结合。

根据应用场景和需求的不同，我们大致可以将循环神经网络的任务分为两类：一类是序列到类别的模式，另一类是序列到序列的模式。其中，序列到序列的问题又可以进一步的划分为：“同步的序列到序列的模式”和“异步的序列到序列的模式”。接下来我们会通过三个案例来进一步的了解这三种模式。

文本分类

文本分类目前是自然语言处理（Natural LanguageProcessing，NLP）领域中最常见的问题之一，例如做垃圾邮件检测、用户评论的情感极性分析等。序列到类别的模式适用于文本分类问题，在文本分类问题中，我们输入到循环神经网络中的是一段文本，长度为n，神经网络的输出只有一个类别，长度为1。

假设我们要实现一个外卖行业的用户评论的情感极性分类，如图1所示，我们输入到神经网络中的是一段用户对外卖商品的评论。

图1 实现文本分类的循环神经网络示意图

循环神经网络在每一个“时间步”都有一个输出，但对于一个简单的分类问题，我们不需要这么多的输出，一个常用且简单的处理方式是只保留最后一个“时间步”的输出，如图2所示：

图2 “序列到类别模式”的循环神经网络示意图

序列标注

分词是自然语言处理中最基础也是最重要的一个环节，随着深度学习的发展，不少人开始尝试将深度学习应用到这一领域，近两年里也取得了一定的成果。虽然目前在分词、词性标注等任务中普遍使用的还是CRF、HMM等传统算法，但是深度学习所取得的成果已经被越来越多的人所认可，并且不断地在自然语言处理的任务中崭露头角。

不管是使用传统的CRF算法还是使用循环神经网络来训练分词模型，我们都需要先对训练数据进行标注。以4-tag字标注法为例，假设我们有一段训练样本“北京市是中国的首都”，标注后的数据形式如下：

在4-tag字标注法中，有四个标签，分别是：B、M、E和S。其中B代表这个字是一个词的首字，M代表这个字是一个词的中间部分（一个词如果由多个字组成，除了首尾，中间的字都标为M），E代表这个字是一个词的最后一个字，而S代表这是一个单字，不构成词。在类似分词这种序列标注的问题中，每一个“时间步”都对应一个输入和输出。对于这种问题，我们采用“同步的序列到序列的模式”，如图3所示：

图3 “同步的序列到序列模式”的循环神经网络示意图

机器翻译

用于机器翻译的循环神经网络是一种“异步的序列到序列模式”的网络结构，同样是序列到序列的模式，与适用于序列标注的“同步的序列到序列模式”的不同之处在于，“异步的序列到序列模式”的循环神经网络对于输入和输出的序列长度没有限制。在序列标注问题中，每一个“时间步”都有一个输入和一个对应的输出，因此输入和输出的序列长度相同，然而在机器翻译问题中，我们输入的序列长度和输出的序列长度不一定等长。

“异步的序列到序列模式”的循环神经网络就是我们常说的Sequenceto Sequence model，又称为编码器-解码器（Encoder-Decoder）模型。之所以称之为编码器-解码器模型，是因为我们将网络分成了两部分：编码器部分和解码器部分。如图4所示，编码器模型对输入的序列数据进行编码，得到中间向量：

图4 编码器部分示意图

最简单的编码方式是直接把网络最后一个时刻的状态赋值给，也可以使用一个函数来做变换，函数接收的参数可以是，也可以是从到的所有中间状态。在得到中间向量之后，接下来要做的就是解码。一种常用的解码方式如图5（左）所示，模型在解码过程中将编码得到的向量作为解码器的初始状态，并将每一个时间步的输出作为下一个时间步的输入，直至解码完成。“EOS”是输入和输出序列结束的标志。图5右侧所示的是另一种解码的方式，该方式将编码得到的向量作为解码器模型每一个“时间步”的输入。

更具体的Sequence to Sequence模型，可以阅读Bengio等人在2014年发表的论文[1]，以及Google在2014年的一篇论文[2]。

图5 两种不同的解码器模型示意图

● Attention-based model

虽然采用编码器-解码器 (Encoder-Decoder) 结构的模型在机器翻译、语音识别以及文本摘要等诸多应用中均取得了非常不错的效果，但同时也存在着不足之处。编码器将输入的序列编码成了一个固定长度的向量，再由解码器将其解码得到输出序列，这个固定长度的向量所具有的表征能力是有限的，然而解码器又受限于这个固定长度的向量。因此，当输入序列较长时，编码器很难将所有的重要信息都编码到这个定长的向量中，从而使得模型的效果大打折扣。

为了解决这一问题，我们引入了注意力机制（Attention），这种引入了Attention机制的神经网络模型又称为Attention-based model。本节我们要介绍的Soft Attention Model是一种最为常见，使用也较多的注意力模型。为了解决传统的Encoder-Decoder模型中单个定长的编码向量无法保留较长的输入序列中的所有有用信息的问题，Attention-based model引入多个编码向量，在解码器中一个输出对应一个编码向量，如图6所示。

图8 Attention计算过程示意图

我们以第一个编码向量的计算为例，首先用解码器的初始状态分别和编码器中每个时间步的输出计算相似度，得到输出，再通过一个softmax运算将转换成概率值，最后由公式计算得到编码向量。接下来再利用解码器中神经网络的输出计算编码向量，以此类推，直到解码过程结束。

以上就是传统的Soft Attention Model，除此之外还有一些其它形式的Attention-based model，有适用于自然语言处理领域的，也有适用于图像领域的。Google在2017年发表的一篇论文《Attention is All You Need》[3]，试图摆脱CNN和RNN，想要用纯粹的Attention来实现Encoder-Decoder模型的任务，并且取得了非常不错的效果。

● RNN 系列总结

到这里，本章内容就全部结束了。在这一章里，我们从最基础的简单结构的循环神经网络开始介绍，介绍了循环神经网络的计算过程以及如何使用TensorFlow去实现，又介绍了几种常用的循环神经网络结构；在第四节里，我们介绍了循环神经网络所面临的问题——长期依赖问题，以及相应的解决办法；之后，我们介绍了两种基于门控制的循环神经网络，这是目前在循环神经网络里使用较多的两种网络结构，这两种网络结构通过在前后两个网络状态之间增加线性的依赖关系，在一定程度上解决了梯度消失和梯度爆炸的问题；在第六节里，我们介绍了循环神经网络的一些应用，并借此介绍了应用在不同任务中时网络结构的不同；最后，我们介绍了对传统Encoder-Decoder模型的一种改进：Attention-based model。希望进一步了解循环神经网络相关应用的读者，推荐参考本书GitHub项目中整理的相关资源。

在下一章里，我们将使用循环神经网络实现几个完整的项目，在学会使用TensorFlow搭建循环神经网络模型的同时，加深对循环神经网络的理解。

原文发布时间为：2018-11-26

本文来自云栖社区合作伙伴“磐创AI”，了解相关信息可以关注“磐创AI”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/673589

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

自然语言处理怎么最快入门？

本文整理自知乎上的一个问答，分享给正在学习自然然语言处理的朋友们！一、自然语言处理是什么？自然语言处理说白了，就是让机器去帮助我们完成一些语言层面的事情，典型的比如：情感分析、文本摘要、自动问答等等。我们日常场景中比较常见到的类似Siri、微软小冰之类的，这些的基础都是自然语言处理，另外还有一些语音处理，这就暂且不表了。总之，你看到的机器与人利用语言交互，用机器模拟人脑阅读，对话，评论等等这些的基础都是自然语言处理的范畴之内。二、自然语言处理怎么学？自然语言处理的实际入门步骤来说，假如单单从应用来说，我觉得还是直接先从简单的应用搞起更好一点，上来就是理论的话可能对一些人还是比较枯燥，我认为一个好的过程是：实践-理论-实践，先由实践搞起，加深兴趣，然后理论研究，深化理解，最后继续实践，知行合一。闲言少叙，下面说下自己的入门步骤： 1、分词针对中文而言(当然假如你处理英文，可直接跳过这一步)，首先就是分词的问题，因为中文相对于英文，并不是空格分隔的，另外进行自然语言处理的相关实践，也不大可能直接一长段文本进行操作，所以分词还是首当其中的。分词的原理暂且不说(比如CRF、霍夫曼等等...

2018-11-27

722

最新DataOps平台的真正价值，只有在业务用户和应用程序能够从各种数据源来访问原始数据和聚合数据，并且及时地产生数据驱动的认识时，才能够实现。利用机器学习（Machine Learning），分析师和数据科学家可以利用历史数据，以及实时地使用类似TensorFlow(TF)这样的技术，以做出更好的数据驱动业务的线下决策。在本文中，你将学习如何利用TensorFlow模型在StreamSets Data Collector3.5.0和StreamSets Data Collector Edge中最新发布的TensorFlow Evaluator*进行预测和分类。在深入讨论细节之前，我们来看一些基本概念。机器学习（Machine Learning）亚瑟·塞缪尔把它描述为：“不需要明确地编写程序而使计算机有能力学习的研究领域。”随着机

2018-11-29

748

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。