人工智能起步-反向回馈神经网路算法（BP算法）-低调大师

人工智能起步-反向回馈神经网路算法（BP算法）

2018-12-12 884

人工智能分为强人工与弱人工。

弱人工智能就包括我们常用的语音识别，图像识别等，或者为了某一个固定目标实现的人工算法，如：下围棋，游戏的AI，聊天机器人，阿尔法狗等。

强人工智能目前只是一个幻想，就是自主意识，具有自我成长、创造力的AI。如妇联2里的奥创，各种电影都有这个概念了。

我希望不久的将来能目睹这一奇迹。

不积跬步无以至千里。

先从基础讲起。

目前比较先进的算法理论据我所知应该分成这几大类：

1，深度神经网络

2，生成对抗网络

3，深度强化学习

4，迁移学习

5，循环神经网络

神经元生物原理

100多年前脑部的生物构造被研究出来之后，大家就幻想可以通过模拟神经系统造人了。然后就弄出各种神经网络算法。所以先讲这部分内容，之后理解BP算法会更带感。

神经元是神经网络的基本单位，先贴一张图。

可以看到神经元的主要构造分为3个部分 N个树突+细胞体 +突触

神经元之间的连接是就是树突连接(另一个神经元)的突触。这种首尾相连的结构，N个树突可以连接N个神经元。

信号的传输方式是由N个神经元通过树突传递神经递质，递质上附加了生物电，当生物电累加到一定阙值时就会激发突触发送信号出去。

基本逻辑就是这样。下面我们看看人类的脑洞。

BP算法原理

BP算法由输入层→隐层→输出层构成。

输入输出层：这里可以看到这层可以有多个入口，也可以只有1个入口。

比如要做一个根据每期福利彩票的结果预测下期的结果。

那么输入层就应该上一期的结果（N个数字）。输出层就是这期（N个数字）。

隐层：隐层可以有N个节点或者N个层次。

正向过程：

输入层分别累加到隐层的各个节点

假设输入是x 隐层节点是s

那么

s1 = x1+x2+x3+x4+……

s2 = x1+x2+x3+x4+……

s3 = x1+x2+x3+x4+……

然后为了可以动态调整各个节点加入的权值w1 w2 w3……

就变成

s1 = w1*x1+w2*x2+w3*x3+w4*x4+……

s2 = w1*x1+w2*x2+w3*x3+w4*x4+……

s3 = w1*x1+w2*x2+w3*x3+w4*x4+……

顺便加一个偏移值b 数学公式就成了：

Sj 还要经过传递函数 f() 算出隐层节点的值

f()传递函数对应的过程就是：

神经元累加生物电到达一定程度时触发放电。如果没到达阙值这些累积的生物电就打水漂了。

举个例子来说

常用的一种激励函数是sigmoid 函数图如下

公式 f= 1/(1+e^-x)

这个S型函数的意义只要达到某一阙值函数就会输出1 就算超出阙值也不会影响输出值。(错误)

这里原先是我理解错了，BP算法加入sigmod函数主要的意义在于加入非线性函数来解决非线性问题。

选sigmod的好处在于求导方便 sigmod的导数= 1 - f

反向回馈的时候需要计算导数

隐层到输出层的过程也是一样的。

不过BP算法的重点在于反向回馈。

反向：

正向传输结束之后我们能够拿到一次结果。

这个结果就可以跟预期值做比较，一般计算方差E。

那么这个误差就可以反向的传递给上一层，用来调整上层节点的权值 w 。这个过程反复执行直到方差E小于期望的最小误差。（因为现实是不可能达到0误差，所以如果不设置最小期望误差则程序结束不了。）

至于具体的权值调整的公式有完整的推导过程，过于复杂这里不讨论。

核心的概念就是通过计算整体方差E对权值变量Wj 的偏微分得出当前权值应该增加还是应该减少，上式很像n的那个字母就是指学习率。就是这里一次要调整权值时用的基本单位。

偏微分科普：

比如一个公式有N个变量 y = aX +bY+cZ; 这里 XYZ是变量。abc是常量。

偏微分就是求单一变量的变化对y值的影响，其他变量在此被当作常量来求导。

那么y在这里求x的偏微分，就应该是 =a ; (bY+CZ)被当作常量。

小结：

那么一次正向反馈+一次反向调整权值使得全局误差减少，做多几次直到全局误差符合期望的最小误差。这就是一次训练完成。

多次训练需要提供不同的输入值。

再拿上面的例子说：

就是我拿第1期的开奖结果作为输入值，第2期的开奖结果作为预期值计算误差，这就是一次完整的训练。

第二次训练就是拿第2期作为输入值，第3期作为预期值。

以此类推直到没有新的训练样本。训练完成的神经网络就可以用来预测往后的任何一期的开奖结果。

（当然由于福利彩票是完全随机没有规律的，所以其实预测结果很糟糕。）

BP算法理论上能够逼近所有线性函数。

通俗点讲，BP算法能够在你拥有足够的历史数据而又不知道其中规律的情况训练出能够预测结果的算法。

但是必须这个要做的事情是有规律的（只是你不知道或者太过复杂），而且你的训练集必须包含所有“有效因子”。

有效因子这个词是我造的了。比如说你的历史数据里有50%是会影响结果的，有另外50%跟结果一毛钱关系都没有。这是神经算法允许的。

但是如果这50%的数据里没有包含所有导向结果的所有因素，那么结果就会差别很大。

假设说福利彩票（又来了）有一个因素是空气质量（假设！），比如没雾霾的情况下出现某个数字的概率很高。

然而你的训练集中没有加入这个因素，那么结果就非常不准确了。

目前存在的问题

目前BP算法有两个明显问题:

1. 容易陷入局部最小值

比如函数

整个BP算法就类似求解这个函数的最小值。

但是我们看到这个函数有2个最小值，实际的情况是可能有非常多个极小值。

当我们从右到左调整权值时会到达第一个低谷。然后继续调整权值后发现误差值变大了，算法就误以为找到了最小值解。然而却没有拿到全局的最优解。

这就是所谓的陷入局部最小值。

2.过拟合问题

过度的符合训练集。就像刚才我举例说有50%的训练数据是无关结果的。所以算法最佳的结果其实是忽略掉这50%无用训练集。但是问题在于我们不知道规律是什么，不知道那些训练集是有效因子（知道了就不会搞出来一个BP算法了）。

所以过度的符合训练集也是错误的。

这个算法在人工智能领域还是算入门了，升级版还有卷积算法。

涉及的数学概念非常多，尤其是统计学方面。

附上BP算法相关内容的思维导图

微信关注我们

原文链接：https://my.oschina.net/u/3994209/blog/2987411

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【MySQL经典案例分析】 Waiting for table metadata lock

本文由云+社区发表一、问题是这样来的 2018年某个周末，接到连续数据库的告警，告警信息如下：二、苦逼的探索过程 1、总体的思路看到too many connection的报错信息，基本上可以把问题定位在：（1）机器负载飙升，导致SQL执行效率下降，导致连接推积（2）业务访问量突增（或者有SQL注入现象），导致连接数打满（3）出现“死锁”或者锁竞争严重，导致大量SQL堆积 2、排查过程（1）机器的各项性能指标都显示正常，没有出现高负载现象，暂时先排除了这种原因（2）查看监控信息，发现在连接数打满的时间点前并没有访问量突增的趋势，同时通过检查告警信息并没有发现有注入工单（3）最后上到服务器上查看下SQL的执行情况查看show full processlist；大量的请求都是在“Waiting for table metadata lock”，可以分成三类请求： Select请求 Rename请求 Sleep请求 ②分析Waiting for table metadata lock 一般来说常见的“Waiting for table metadata...

2018-12-12

770

一、什么是反射？ Java反射说的是在运行状态中，对于任何一个类，我们都能够知道这个类有哪些方法和属性。对于任何一个对象，我们都能够对它的方法和属性进行调用。我们把这种动态获取对象信息和调用对象方法的功能称之为反射机制。二、反射的三种方式这里需要跟大家说一下，所谓反射其实是获取类的字节码文件，也就是.class文件，那么我们就可以通过Class这个对象进行获取。 1、第一种方式这个方法其实是Object的一个方法，Class继承了Object，所以我们可以直接使用。 public class Test02 { public static void main(String\[\] args) { // 创建一个对象 Test02 t = new Test02(); // 获取该对象的Class对象 Class c = t.getClass(); // 获取类名称 System.out.println(c.getName()); // com.ms.Test02 } } 2、第二种方式 public class Test02 { public static...

2018-12-12

916

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。