知识卡片循环神经网络 RNN-低调大师

知识卡片循环神经网络 RNN

2020-08-13 627

前言：本文简要介绍了循环神经网络RNN以及其变体长短时记忆LSTM和双向循环网络。

循环神经网络

RNN-Recurrent Neural Network

序列数据

RNN建模的适合于序列数据，例如根据股票价格随时间的走势预测未来；视频中的每一帧属于帧序列，可以预测下一帧的内容，进行动作补偿。

自然语言处理中，如大话西游的台词，这里的括号填什么呢？不可能填写我没有去北京，上海，因为需要上下文的词序列来进行预判，输入法打字也是同样的原理；此外，在机器翻译中，将源语言和目标语言中，也存在着上下文衔接的词序列，因而RNN也可以被用在机器翻译中。

什么是循环神经网络?

传统的神经网络模型，层与层之间是全连接，但是隐藏层内的节点没有连接。序列信息中，节点存在被前一刻记忆的影响，隐藏层中的节点接收上一个节点的信息。RNN被称为循环神经网络是其对一组序列的输入进行循环，重复同样的操作。

RNN序列处理

RNN处理序列的类型根据输入和输出的数量，有四种类型。绿色是输入，蓝色是输出，灰色是隐藏层，可捕捉序列前后的信息；并不是每一步都需要输入或者输出，但是隐藏层是不可少的。

同步序列中，Many to many 多对多，输入和输出的数量相同，可用在词性标注，输入一个句子，输出句中每个词的词性；Many to one 多对一，文本的情感分析，输入一句话，输出这句话表达的情绪是积极还是消极。

非同步序列中，Many to many 多对多，可被用作机器翻译，即输入一种语言的文字，输出另外一种语言的文字；One to many，一对多，输入一张图片，输出对于图片内容的描述。

最基本的RNN结构

从左往右看，中间的圆圈是隐藏单元为S，x和O是输入和输出，通过折叠S神经单元，旁边加上一个顺时针的箭头，可以简化表示为S循环。

基本RNN的计算过程

以第二个神经元单元为例，xt 是向量，表示t时刻的输入，St是t时刻的记忆单元，St = f(U*xt + W*St-1)，f是非线性的激活函数 tanh 双曲线正切函数，作用是将输入的数据规范化，取值在[-1,1]，U和W是矩阵，对应 t时和 t-1时（左边单元）的权重参数，Ot是t时的输出，用softmax 函数归一化指数函数对矩阵V和向量st压缩并输出结果。

Softmax函数是逻辑函数Sigmoid的任意推广，将含有任意实数的k维的向量压缩至另外一个k维向量中，使得向量中的每个元素的范围都在[0,1]，并且所有元素的和为1，满足概率的性质。

RNN的参数共享

RNN神经网络图中，每一条边都代表一个参数，不同于传统的神经网络，RNN在计算中共享U、V、W参数，即输出值Ot-1,Ot,Ot+1所用的U、V、W参数，这也是循环神经网络的特点，减少了需要学习的参数的数量，并提高了对数据进行训练的效率。

长短时记忆网络

LSTM-Long Short-Term Memory

LSTM是RNN的一种变体，可以有效应对长期依赖的问题。

标准RNN难以应对长期依赖

在文本预测中，空歌词距离先关信息“clouds”的间隔不长，可以填上“sky”。

预测文本中，我出生在法国，我说“ ”，可填“法语”，但在文本中因为上下文的距离较长，上文对下文的影响消失或削弱，导致RNN不能预测远处的内容。

LSTM 的基本思路

标准的RNN其隐藏层只有一个h，可以对短期的内容保持敏感，难以捕捉长期的上下文；LSTM在隐藏层的基础上增加一个长时状态c, 也叫 cell state 单元或细胞状态用于保存长期状态，无论是c还是h都是一个向量。

Ct 是当前输入对应的长期状态，由上一时刻的长期状态Ct-1和当前时刻的即时状态C't组成。然而，不能将所有的上一时刻的长期状态都保留，需要选择性的接收，使用一个忘记门，有选择地忘记一些长期信息。

此外，当前时刻的长期状态还需要更新，因此通过输入门输入当前时刻的即时状态来更新。最后还有一个输出门，来控制如何使用当前时刻的长期状态来更新当前时刻的隐藏状态ht，此时ht中保存了一些长期的信息并和标准的RNN兼容；输出Ot时，还是使用当前时刻的ht来计算。

神经网络中的门

输入和输出都是尺寸相同的矩阵，对于其中的每个元素进行逐点操作。

LSTM 的整体框架图

LSTM的难点是如何计算Ct，红色的水平线表示了长期信息的计算。

LSTM的计算过程

σ是sigmoid函数，对应[0,1]，选择忘记还是记忆；语言模型中，Germany是距离远的长期信息，尝试忘记。

语言模型中，应将当前词 France，更新到Ct中。

得到输出的结果ht，经过复制后去往上方和下方，上方为通过后续的softmax函数计算，输出结果Ot；下方的ht可以被送入下一个单元进行计算。

LSTM 的变体-1

变体将Ct-1放入了ft，it和Ot中，使得门层接收长期状态的输入。

LSTM 的变体-2

将遗忘的记忆(1-ft)和新记忆C't进行耦合，将只有新元素来填充的元素遗忘。

LSTM 的变体-3

简单的理解，GRU通过重置门R和更新门U，将隐藏状态（ht-1 上一个时刻的ht）与长期状态~ht进行混合得到新的隐藏状态ht。

双向循环神经网络和注意力机制

Bidirectional RNN and Attention Mechanism

双向RNN(Bidirectional RNNs)

在文本中，一个词的预测不仅与上文有关，也与下文有关，因此采用双向的RNN来进行预测更为准确，图中Wt由正反向的两个向量拼接组成拼接向量concatenated vector，再经过softmax函数进行归一化，输出结果。

深层双向RNN(Deep Bidirectional RNNs)

深层双向RNN与RNN类似，增加了更多的隐藏层，具有更强大的学习和表达能力，同时也需要更多的数据来进行训练。

注意力模型(Attention model)

注意力机制的简单描述，人类会将注意力集中在有特点的位置，下次遇到类似的场景会注意相同特点的位置。

注意力模型基本原理

上图左边部分以文本分类为例，输入用W表示为一个语句连续的若干个词。总体上来看，采用的是双向RNN，不同点在于对每个词都加入一个权重α，在获取语义编码C的时候，不同的词的权重不同。αt的取值由Uw决定，可以看做哪一个词是关键词的抽象表示。在训练过程中随机初始化，逐渐更新。

具体的更新形式，参考上图右边的公式：

（1) 将拼接层的隐藏节点通过双曲拼接层的变化得到θt

（2) 将θt与uw点乘，得到归一化的αt，即不同词的注意力概率分布。

（3）αt和ht点乘求和，得到带注意分布的语义编码。

带有注意力机制的文本分词的好处是可以直观地看到每个词对分类的重要性。

案例推荐：

https://blog.csdn.net/qq_33431368/article/details/85288590

此文讲解RNN和LSTM的原理，可阅读加深对其理解，并用LSTM模型进行实战训练PTB(Penn Treebank Dataset) 宾州数据数据集。

好文章，我在看❤

本文分享自微信公众号 - DataScience（DataScienceTeam）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4159456/blog/4493825

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【小白学ML】随机森林全解（从bagging到variance）

【前言】：公众号的AI初学者交流群已经建立啦，公众号后台回复【加群】可以加入。群里都是些一起学习的朋友，大家学习路上，结个伴。【公众号资源汇总】：炼丹图书馆 | AI初学者所需要的资料合集（视频+PDF下载）全文3155字，预计阅读时间10min 文章目录： 1 随机森林 2 bagging 3 神秘的63.2% 4 随机森林 vs bagging 5 投票策略 6 随机森林的特点 6.1 优点 6.2 bias 与 variance 6.3 随机森林降低偏差证明为什么现在还要学习随机森林？随机森林中仍有两个未解之谜（对我来说）。随机森林采用的bagging思想中怎么得到的62.3% 以及随机森林和bagging的方法是否有区别。随机森林(Random Forest)就是通过集成学习的思想将多棵决策树集成的一种算法。基本单元是决策树。随机森林算法的提出也是为了改善决策树容易存在过拟合的情况。 1 随机森林习惯上，我们将众多分类器(SVM、Logistic回归、决策树等)所组成的“总的分类器”，叫做随机森林。随机森林有两个关键词，一个是“随机”，一个是“森林”。森林就是成百...

2020-08-14

679

迪米特原则迪米特原则（Law of Demeter）又叫最少知道原则（Least Knowledge Principle），可以简单说成：talk only to your immediate friends，只与你直接的朋友们通信，不要跟“陌生人”说话。图片.png 模式与意义迪米特法则，如果两个类不必彼此直接通向，那么这两个类就不应当发生直接的相互作用。如果其中一个类需要调用另一个累哦的某一个方法的话，可以通过第三者转发这个调用。迪米特法则首先强调的前提是在类的结构设计上，每一个类都应当降低成员的访问权限，也就是说，一个类包装好自己的private状态，不需要让别的类知道的字段或行为就不要公开。面向对象的设计原则和面向对象的三大特性本就不是矛盾的。迪米特法则其根本思想，是强调了类之间的松耦合。类之间的耦合越弱，越有利于复用，一个处在弱耦合的类被修改，不会对有关系的类造成搏击，也就是说，信息的隐藏促进了软件的复用。优点减少对象之间的耦合性图片.png 摘自大话设计模式: 图片.png 图片.png 图片.png 注意在类的划分上，应该创建弱耦合的类。类与类之间的耦合...

2020-08-14

549

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。