循环神经网络
最近的股市震荡的有点厉害,跌的有点惨,面对如此情景,我波澜不惊,原因很简单,前几年我小试牛刀的时候我意识到了这不是我这种散户能玩得懂的,如今的我早已空仓。万物皆可 AI,如何用深度学习的方法去理解呢?当然,本篇不是一个指导买股票的文章,也不会用股票的数据信息去训练模型,我付不起这样的责任,也同样因为股票的市场行情远非一点股票价钱数据就可以解释的。下面我们来聊一聊正事,循环神经网络(RNN)。
为什么要引入循环神经网络?思考一个问题,如果问你明天股票的市场行情是看涨还是看跌,大概率你会搜索一下近一段时间的行情趋势,然后给我一个猜测的回答,我们认为明天的行情与近一段时间的股票价格是有关系的,我们人脑会对此进行一定的推测,我们知道神经网络在某一种程度上来说,也是一种模拟人脑的行为,那我们的神经网络可以做预测吗?我们之前用于训练神经网络的是一个独立的数据信息,我们把它们打乱顺序,还是可以得到正确的结果,很显然,股票的价钱信息是不能打乱顺序的,这两种数据有什么区别?
一种数据是顺序无关的,一种数据是顺序有关的。
我们之前的网络不好用了,我们需要新的网络去解决这个问题——循环神经网络。循环神经网络遍历数据时,会保存数据的状态信息,这个状态信息包含之前数据的信息,它的内部有环状结构,前一项数据项的输出,是下一个数据项的输入,这样后一项数据会受到前一项数据的影响。
我们用一段矩阵处理的代码来解释这个问题:
def deal(): timesteps = 100 input_features = 32 output_features = 64 # 随机输入,维度:100 * 32 inputs = np.random.random((timesteps, input_features)) print('input: ', inputs) # 初始化为全 0 向量 state_t = np.zeros((output_features,)) # 维度:64 * 32 W = np.random.random((output_features, input_features)) # 维度:64 * 64 U = np.random.random((output_features, output_features)) # 行向量,64 b = np.random.random((output_features,)) successive_outputs = [] for input_t in inputs: # 双曲正切函数 output_t = np.tanh(np.dot(W, input_t) + np.dot(U, state_t) + b) print(output_t) successive_outputs.append(output_t) state_t = output_t # 100 * 64 final_output_sequence = np.stack(successive_outputs, axis=0) print('output: ', final_output_sequence)
知道了原理,老规矩,我们还是用 Keras 实现,那种内置的实现,真是熟悉的味道,SimpleRNN。SimpleRNN 可以返回每一步输出的完整序列,也可以返回最终的结果,由 return_sequences 参数控制(True 时,返回完整序列),有了这样一个好用的循环神经网络,那我们就可以重新思考 IMDB 电影评论分类问题了。因为我们有了之前的经验,因此这一个的代码就很简单了:
def imdb_rnn(): max_features = 10000 # 只用前 500 个单词 maxlen = 500 (input_train, y_train), (input_test, y_test) = imdb.load_data(num_words=max_features) input_train = sequence.pad_sequences(input_train, maxlen=maxlen) model = Sequential() # 将正整数(索引值)转换为固定尺寸的稠密向量,只能用作第一层 model.add(Embedding(max_features, 32)) # model.add(LSTM(32)) # 与下一行相互替换 model.add(SimpleRNN(32)) model.add(Dense(1, activation='sigmoid')) model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc']) history = model.fit(input_train, y_train, epochs=10, batch_size=128, validation_split=0.2) acc = history.history['acc'] val_acc = history.history['val_acc'] loss = history.history['loss'] val_loss = history.history['val_loss'] epochs = range(1, len(acc) + 1) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.plot(epochs, acc, 'bo', label='Training acc') plt.plot(epochs, val_acc, 'b', label='Validation acc') plt.title('Training and validation accuracy') plt.legend() plt.show() plt.figure() plt.plot(epochs, loss, 'bo', label='Training loss') plt.plot(epochs, val_loss, 'b', label='Validation loss') plt.title('Training and validation loss') plt.legend() plt.show()
我们看看训练出来的结果:
差不多 85% 的准确率,还算可以,毕竟我们只用了每条评论的前 500 个单词,我试着调大单词数目到 1000,除了时间延长了一点外,准确率仅仅提高了 2%,有点得不偿失,为什么会出现这样的情况呢?原因是 SimpleRNN 的效果不好,那简单,换换其他的 RNN 方法吧。Keras 中还有 LSTM 和 GRU 这样的循环神经网络。
SimpleRNN 的一个问题是容易遗忘,专业点的术语叫做 梯度消失,就是在处理过程中,记住了最近几步处理的信息,更早的信息忘记了,LSTM 和 GRU 效果就好得多。比如 LSTM 的做法就是本次计算出来的结果不仅仅在下一次的计算中使用,而且被记住了,在更加靠后的计算中也能拿到这一次的计算结果,在某一种意义上来说,就是跨步骤传递信息,也就能实现长期记忆了,这其中的细节信息当然是我们以后要具体讨论的,这里点到为止。
我们把上面 SimpleRNN 层换成 LSTM 层,代码已经在上面的注释中了,然后看看效果怎么样:
从这个我们可以看出来,百分之 90% 了,效果好了很多,对比一下我们之前用单词统计的方法训练的网络的结果(87% 左右),这里也是用了更少的数据,得到了更高的准确度,说明循环神经网络是有用的。但我们同样不要忽略一个问题,循环神经网络计算量更大了,用大了几倍的计算量,换来这其实没那么大的提高,真的是有意义的吗?这其实跟我们的问题是有关系的,这个实际的问题是评论态度判断,其实在评论中,积极或者是消极的评论中,一些单词的出现其实是非常具有代表性的,“剧情无聊”这样的词其实非常有说服力,因此对于这类问题,其实可以考虑用更大的数据量去训练网络,在计算量小得多的情况下,还能得到一个不错的结果。当然,如果是一种聊天系统,或者是智能助手,循环神经网络的优势就会体现得更明显。
循环神经网络的基本内容我们就介绍的差不多了,下一次我们聊聊循环神经网络有哪些高级的用法。
- 首发自公众号:RAIS
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
云原生资深专家:如何选择一个最佳微服务代理架构?
作者简介 Pankaj Gupta,就职于Citrix,是云原生应用程序交付解决方案的高级总监。 近两年微服务架构十分流行,许多公司也正在努力构建自己的微服务架构。而因为微服务能够实现更快的发布周期、将应用程序模块化、弹性伸缩以及让应用程序具备可移植性,其越来越成为企业数字化进程中不可忽视的标志。但是,由于对敏捷性所产生的影响了解较少,使得应用程序交付增加了许多复杂性。 对于此,有什么解决方案呢? 选择合适的代理架构和应用程序交付controller(ADCs)对最终用户获得最佳体验至关重要。它必须能够提供合适的安全等级、观察性、高级流量管理以及故障排查能力并且能够兼容你的开源工具。此外,代理架构必须能够同时满足南北流量和微服务间东西流量的需求。 单体应用程序的负载均衡十分简单。但是对于基于微服务的应用程序而言,负载均衡则更为复杂。 本文将介绍4个代理架构,并根据基于微服务应用程序交付的7个关键标准对其中几个进行评估。 在优势和复杂性之间进行权衡 首先,我们需要达成共识:微服务架构实际上是十分复杂的。在开源创新的推动下,最佳实践随着技术的进步而迅速发展。不同的架构拥有不同的优势,但是也...
- 下一篇
进程无故消失的破案历程
概述 前段时间公司有个系统的进程老是无故退出,在客户那边好好的,在家里服务器上老是出现,而且出现的时间也没啥规律,当然最终查出来还是有规律的,不过这个规律比较特别。大家看了后面的内容之后就明白了,真的很特殊! 初步分析 进程Crash? 当同事找到我的时候,我第一反应是是不是进程Crash了,如果是crash,那通常情况下会有crash的日志,检查了一遍,什么日志都没有留下,当然有时候Crash了,JVM也确实也不会留下Crash日志,不过这个特别罕见了,绝大部分是人为操作了。 被OS Kill? 既然不是Crash,那是不是系统存在内存泄露,被OS Kill了,不过很快通过dmesg也排除了,因为没有看到任何kill的迹象。 System.exit? 排除掉以上两个因素之后,接着马上就怀疑是否有什么代码执行过System.exit,于是重新编译了一把JDK,在System的exit方法处打印了些日志,于是坐等奇迹的发生。 令人兴奋的是,进程真的消失了,可是令人遗憾的是,我们埋点的日志并没有出现。这让我再次陷入沉思。 回归源码 从日志看确实是调用了ShutdownHook 于是找到ad...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7,8上快速安装Gitea,搭建Git服务器