循环神经网络-低调大师

循环神经网络

2020-03-11 668

最近的股市震荡的有点厉害，跌的有点惨，面对如此情景，我波澜不惊，原因很简单，前几年我小试牛刀的时候我意识到了这不是我这种散户能玩得懂的，如今的我早已空仓。万物皆可 AI，如何用深度学习的方法去理解呢？当然，本篇不是一个指导买股票的文章，也不会用股票的数据信息去训练模型，我付不起这样的责任，也同样因为股票的市场行情远非一点股票价钱数据就可以解释的。下面我们来聊一聊正事，循环神经网络（RNN）。

为什么要引入循环神经网络？思考一个问题，如果问你明天股票的市场行情是看涨还是看跌，大概率你会搜索一下近一段时间的行情趋势，然后给我一个猜测的回答，我们认为明天的行情与近一段时间的股票价格是有关系的，我们人脑会对此进行一定的推测，我们知道神经网络在某一种程度上来说，也是一种模拟人脑的行为，那我们的神经网络可以做预测吗？我们之前用于训练神经网络的是一个独立的数据信息，我们把它们打乱顺序，还是可以得到正确的结果，很显然，股票的价钱信息是不能打乱顺序的，这两种数据有什么区别？

一种数据是顺序无关的，一种数据是顺序有关的。

我们之前的网络不好用了，我们需要新的网络去解决这个问题——循环神经网络。循环神经网络遍历数据时，会保存数据的状态信息，这个状态信息包含之前数据的信息，它的内部有环状结构，前一项数据项的输出，是下一个数据项的输入，这样后一项数据会受到前一项数据的影响。

我们用一段矩阵处理的代码来解释这个问题：

def deal():
    timesteps = 100
    input_features = 32
    output_features = 64

    # 随机输入，维度：100 * 32
    inputs = np.random.random((timesteps, input_features))
    print('input: ', inputs)

    # 初始化为全 0 向量
    state_t = np.zeros((output_features,))

    # 维度：64 * 32
    W = np.random.random((output_features, input_features))
    # 维度：64 * 64
    U = np.random.random((output_features, output_features))
    # 行向量，64
    b = np.random.random((output_features,))

    successive_outputs = []
    for input_t in inputs:
        # 双曲正切函数
        output_t = np.tanh(np.dot(W, input_t) + np.dot(U, state_t) + b)
        print(output_t)
        successive_outputs.append(output_t)
        state_t = output_t

    # 100 * 64
    final_output_sequence = np.stack(successive_outputs, axis=0)
    print('output: ', final_output_sequence)

知道了原理，老规矩，我们还是用 Keras 实现，那种内置的实现，真是熟悉的味道，SimpleRNN。SimpleRNN 可以返回每一步输出的完整序列，也可以返回最终的结果，由 return_sequences 参数控制（True 时，返回完整序列），有了这样一个好用的循环神经网络，那我们就可以重新思考 IMDB 电影评论分类问题了。因为我们有了之前的经验，因此这一个的代码就很简单了：

def imdb_rnn():
    max_features = 10000
    # 只用前 500 个单词
    maxlen = 500
    (input_train, y_train), (input_test, y_test) = imdb.load_data(num_words=max_features)
    input_train = sequence.pad_sequences(input_train, maxlen=maxlen)

    model = Sequential()
    # 将正整数（索引值）转换为固定尺寸的稠密向量，只能用作第一层
    model.add(Embedding(max_features, 32))
    # model.add(LSTM(32))    # 与下一行相互替换
    model.add(SimpleRNN(32))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])
    history = model.fit(input_train, y_train, epochs=10, batch_size=128, validation_split=0.2)

    acc = history.history['acc']
    val_acc = history.history['val_acc']
    loss = history.history['loss']
    val_loss = history.history['val_loss']
    epochs = range(1, len(acc) + 1)
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.plot(epochs, acc, 'bo', label='Training acc')
    plt.plot(epochs, val_acc, 'b', label='Validation acc')
    plt.title('Training and validation accuracy')
    plt.legend()
    plt.show()

    plt.figure()
    plt.plot(epochs, loss, 'bo', label='Training loss')
    plt.plot(epochs, val_loss, 'b', label='Validation loss')
    plt.title('Training and validation loss')
    plt.legend()
    plt.show()

我们看看训练出来的结果：

差不多 85% 的准确率，还算可以，毕竟我们只用了每条评论的前 500 个单词，我试着调大单词数目到 1000，除了时间延长了一点外，准确率仅仅提高了 2%，有点得不偿失，为什么会出现这样的情况呢？原因是 SimpleRNN 的效果不好，那简单，换换其他的 RNN 方法吧。Keras 中还有 LSTM 和 GRU 这样的循环神经网络。

SimpleRNN 的一个问题是容易遗忘，专业点的术语叫做梯度消失，就是在处理过程中，记住了最近几步处理的信息，更早的信息忘记了，LSTM 和 GRU 效果就好得多。比如 LSTM 的做法就是本次计算出来的结果不仅仅在下一次的计算中使用，而且被记住了，在更加靠后的计算中也能拿到这一次的计算结果，在某一种意义上来说，就是跨步骤传递信息，也就能实现长期记忆了，这其中的细节信息当然是我们以后要具体讨论的，这里点到为止。

我们把上面 SimpleRNN 层换成 LSTM 层，代码已经在上面的注释中了，然后看看效果怎么样：

从这个我们可以看出来，百分之 90% 了，效果好了很多，对比一下我们之前用单词统计的方法训练的网络的结果（87% 左右），这里也是用了更少的数据，得到了更高的准确度，说明循环神经网络是有用的。但我们同样不要忽略一个问题，循环神经网络计算量更大了，用大了几倍的计算量，换来这其实没那么大的提高，真的是有意义的吗？这其实跟我们的问题是有关系的，这个实际的问题是评论态度判断，其实在评论中，积极或者是消极的评论中，一些单词的出现其实是非常具有代表性的，“剧情无聊”这样的词其实非常有说服力，因此对于这类问题，其实可以考虑用更大的数据量去训练网络，在计算量小得多的情况下，还能得到一个不错的结果。当然，如果是一种聊天系统，或者是智能助手，循环神经网络的优势就会体现得更明显。

循环神经网络的基本内容我们就介绍的差不多了，下一次我们聊聊循环神经网络有哪些高级的用法。

首发自公众号：RAIS

微信关注我们

原文链接：https://my.oschina.net/renyuzhuo/blog/3191951

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

云原生资深专家：如何选择一个最佳微服务代理架构？

作者简介 Pankaj Gupta，就职于Citrix，是云原生应用程序交付解决方案的高级总监。近两年微服务架构十分流行，许多公司也正在努力构建自己的微服务架构。而因为微服务能够实现更快的发布周期、将应用程序模块化、弹性伸缩以及让应用程序具备可移植性，其越来越成为企业数字化进程中不可忽视的标志。但是，由于对敏捷性所产生的影响了解较少，使得应用程序交付增加了许多复杂性。对于此，有什么解决方案呢？选择合适的代理架构和应用程序交付controller（ADCs）对最终用户获得最佳体验至关重要。它必须能够提供合适的安全等级、观察性、高级流量管理以及故障排查能力并且能够兼容你的开源工具。此外，代理架构必须能够同时满足南北流量和微服务间东西流量的需求。单体应用程序的负载均衡十分简单。但是对于基于微服务的应用程序而言，负载均衡则更为复杂。本文将介绍4个代理架构，并根据基于微服务应用程序交付的7个关键标准对其中几个进行评估。在优势和复杂性之间进行权衡首先，我们需要达成共识：微服务架构实际上是十分复杂的。在开源创新的推动下，最佳实践随着技术的进步而迅速发展。不同的架构拥有不同的优势，但是也...

2020-03-10

820

概述前段时间公司有个系统的进程老是无故退出，在客户那边好好的，在家里服务器上老是出现，而且出现的时间也没啥规律，当然最终查出来还是有规律的，不过这个规律比较特别。大家看了后面的内容之后就明白了，真的很特殊！初步分析进程Crash？当同事找到我的时候，我第一反应是是不是进程Crash了，如果是crash，那通常情况下会有crash的日志，检查了一遍，什么日志都没有留下，当然有时候Crash了，JVM也确实也不会留下Crash日志，不过这个特别罕见了，绝大部分是人为操作了。被OS Kill？既然不是Crash，那是不是系统存在内存泄露，被OS Kill了，不过很快通过dmesg也排除了，因为没有看到任何kill的迹象。 System.exit? 排除掉以上两个因素之后，接着马上就怀疑是否有什么代码执行过System.exit，于是重新编译了一把JDK，在System的exit方法处打印了些日志，于是坐等奇迹的发生。令人兴奋的是，进程真的消失了，可是令人遗憾的是，我们埋点的日志并没有出现。这让我再次陷入沉思。回归源码从日志看确实是调用了ShutdownHook 于是找到ad...

2020-03-12

663

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。