深度学习CNN发展大事件一览-低调大师

深度学习CNN发展大事件一览

2018-07-01 710

深度学习（DeepLearning）尤其是卷积神经网络（CNN）作为近几年来模式识别中的研究重点，受到人们越来越多的关注，相关的参考文献也是层出不穷，连续几年都占据了CVPR的半壁江山，但是万变不离其宗，那些在深度学习发展过程中起到至关重要的推动作用的经典文献依然值得回味，这里依据时间线索，对CNN发展过程中出现的一些经典文献稍作总结，方便大家在研究CNN时追本溯源，在汲取最新成果的同时不忘经典。

首先这里给出CNN在发展过程中的一些具有里程碑意义的事件和文献：

对于CNN最早可以追溯到1986年BP算法的提出，然后1989年LeCun将其用到多层神经网络中，直到1998年LeCun提出LeNet-5模型，神经网络的雏形完成。在接下来近十年的时间里，卷积神经网络的相关研究趋于停滞，原因有两个：一是研究人员意识到多层神经网络在进行BP训练时的计算量极其之大，当时的硬件计算能力完全不可能实现；二是包括SVM在内的浅层机器学习算法也渐渐开始暂露头脚。2006年，Hinton终于一鸣惊人，在《科学》上发表文章，CNN再度觉醒，并取得长足发展。2012年，ImageNet大赛上CNN夺冠，2014年，谷歌研发出20层的VGG模型。同年，DeepFace、DeepID模型横空出世，直接将LFW数据库上的人脸识别、人脸认证的正确率刷到99.75%，几乎超越人类。2015年深度学习领域的三巨头LeCun、Bengio 、Hinton联手在Nature上发表综述对DeepLearning进行科普。2016年3月阿尔法狗打败李世石，2016年4月我在写这篇博文。

一、1986年~1998年

这段时间里是CNN的雏形阶段，主要包括BP算法的提出、BP算法在多层神经网络模型中的应用、LeNet-5模型的正式定型。

1.1 BP算法的提出

BP算法是在1986年由Rumelhart在《Learning Internal Representations by Error Propagation》一文中提出，如果你的论文中提到了BP算法，那这篇文章似乎是非引用不可的，它目前的引用量是19043次：

1.2 基于BP算法的CNN雏形

在BP算法提出3年之后，嗅觉敏锐的LeCun选择将BP算法用于训练多层卷积神经网络来识别手写数字，这可以说是CNN的雏形，具体参见文章《Backpropagation applied to handwritten zip code recognition》，这是卷积神经网络这一概念提出的最早文献，目前应用量为1594次：

1.3 LeNet-5模型的最终定型

所有研究CNN的都必然知道LeNet-5模型，这是第一个正式的卷积神经网络模型：

但你知道它是在什么时候被正式提出来的吗？在1998年，作者还是LeCun，文章《Gradient-based learning applied to document recognition》，引用量4832次：

至此，LeNet-5模型的提出标志着CNN的正式成型，不幸的是接下来这个技术就被打入冷宫，原因如上文所说，它不仅吃设备，而且好的替代品还很多。

二、2006年

这一年可以说是DeepLearning觉醒的一年，标志就是Hinton在Science发文，指出“多隐层神经网络具有更为优异的特征学习能力，并且其在训练上的复杂度可以通过逐层初始化来有效缓解”。这篇惊世骇俗之作名为《Reducing the dimensionality of data with neural networks》，目前引用量3210次：

至此，在GPU加速的硬件条件下，在大数据识别的应用背景下，DeepLearning、CNN再次起飞。

三、2012年~2014年

这段时间卷积神经网络的相关研究已经进行的如火如荼，学术文献呈井喷式层出不穷，具有代表性的我认为有两个：2012年的ImageNet大赛和2014年的DeepFace、DeepID模型。

3.1 ImageNet竞赛上CNN的一鸣惊人

可以说，2012年CNN在ImageNet竞赛中的表现直接奠定了它的重要地位，两个第一，正确率超出第二近10%，确实让人大跌眼镜。在文献《Imagenet classification with deep convolutional neural networks》详细介绍了相关的结构模型以及比赛结果，这篇文献的作者是Hinton，目前引用量4412次：

3.2 DeepFace、DeepID

在2012年CNN一炮打响之后，其应用领域再也不只局限于手写数字识别以及声音识别了，人脸识别成为其重要的应用领域之一。在这期间DeepFace和DeepID作为两个相对成功的高性能人脸识别与认证模型，成为CNN在人脸识别领域中的标志性研究成果。DeepFace由Taigman等人提出，发表在2014年的CVPR上，具体信息参见文章《DeepFace: Closing the Gap to Human-Level Performance in Face Verification》，目前引用量548：

至于DeepID，这是由香港中文大学汤晓鸥教授的研究团队提出，于2014年连发三箭，箭箭都正中靶心，分别是《Deep Learning Face Representation from Predicting 10,000 Classes》、《Deep learning face representation by joint identification-verification》、《Deeply learned face representations are sparse, selective, and robust》目前引用量都在100~200次之间。需要强调的一点是作者在第三篇文章中对卷积神经网络的内部结构进行了分析，试图从理论上诠释CNN的强大特征提取能力，这是学者第一次试图去探索CNN的本质属性，史无前例。

四、2015年~至今

卷积神经网络自从2006年再度走进人们的视线，发展到现在已经快有十个年头。2015年深度学习领域的三巨头LeCun、Bengio 、Hinton在Nature上发表一篇综述，系统的总结了深度学习的发展前世今生，文章写得通俗易懂，全文几乎都没有什么公式，是一篇科普性较强的文章，个人觉得研究深度学习的人员都应该去读一读，题目也很简洁，就叫《Deep Learning》，2015年发表，目前引用量已达321次：

然后在2016年，CNN再次给人们一个惊喜：谷歌研发的基于深度神经网络和搜索树的智能机器人“阿尔法狗”在围棋上击败了人类，更惊喜的是谷歌在Nature专门发表了一篇文章来解释这个阿尔法狗，估计很多人都不知道，文章名字叫做《Mastering the game of Go with deep neural networks and tree search》，由于刚刚发表，引用次数仅为29次：

以上就是我自己对CNN的发展过程中一些标志性的经典文献的一个小小总结，同时也是CNN发展历程中的一个缩影，其中很多文献都是在撰写论文过程中必然要引用到的，希望对大家有所帮助。

五、注意事项

4.1 文献提供

以上所提到的文献在IEEE、谷歌等网站上均可以下载得到，当然实在找不到的话可以联系我，我会及时提供相关文献。

4.2 《Notes on Convolutional Neural Networks》

这篇文献在谷歌上可以查到，具体如下：

遗憾的是笔者到现在也不知道这篇文章到底发表在那个期刊或者会议上，因此不方便在撰写论文的过程中对其进行引用，不过这篇文章的质量确实相当高，对卷积神经网络的前向/反向传播原理都介绍得十分清楚，公式也非常规范，不失为一篇在卷积神经网络入门阶段的好文章，推荐大家阅读。

4.3 引用量均来自于谷歌学术

上文中所提到的相关论文的引用次数均来源于谷歌学术所提供的数据，若有纰漏请大家多多包涵。

4.4 文献阅读笔记

上文提到的这几篇文献堪称卷积神经网络研究领域的经典文献，引用次数都非常高。当然我也不是一开始就能如此抓到重点的去找到这些经典的东西，这都是在阅读了一定数量的文献，有了一定的区分能力之后才能做出的总结，至于自己在文献调研中所走过的弯路就不再多说，这里将我研究生阶段调研过的文献情况奉上以供大家参考：文献阅读笔记。

4.5 卷积神经网络与深度学习的概念

在这篇博文中我一会儿说卷积神经网络模型，一会儿说深度学习模型，但需要强调的是这两个概念并不是等价的，深度学习的概念要更为宽泛一些。经典的深度学习理论可分为卷积神经网络、深度置信网络以及自动编码器，卷积神经网络可以说是目前深度学习体系中研究最多、应用最为成功的一个模型，因此这个概念还是要区分清楚的。

原文发布时间为：2018-07-01
本文来自云栖社区合作伙伴“机器学习算法与Python学习”，了解相关信息可以关注“机器学习算法与Python学习”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/604276

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

在训练的过程中降低学习率

随着学习的进行，深度学习的学习速率逐步下降为什么比固定的学习速率得到的结果更加准确？如上图所示，曲线代表损失值，小球一开始位于(1)处，假设学习速率设置为 △ v，那么根据梯度下降，损失值将在(1) (2)之间来回移动，无法到达最小值(3)处。要想到达(3)，只能降低学习速率。 keras中实现方法： learning_rate_reduction = ReduceLROnPlateau(monitor='val_acc', patience=3, verbose=1, factor=0.5, min_lr=0.00001)#并且作为callbacks进入generator,开始训练history = model.fit_generator(datagen.flow(X_train,Y_train, batch_size=batch_size), epochs = epochs, validation_data = (X_val,Y_val), verbose = 2, steps_per_epoch=X_train.sh...

2018-07-01

628

信息摘要：智能外呼助手通过智能电话外呼，为客户提供高效，质量稳定的自助外呼服务。适用客户：金融：金融贷款、金融理财、金融催收等房产：楼盘出售、商铺招租、房产中介、装修等房地产附加服务客户开发互联网：媒体广告、网络推广、合作伙伴等保险：保险新客户开发、老客户新产品推荐等业务教育：教育培训机构、社会自考招生电商：线上促销活动推送汽车：售后服务、满意度回访调查、问卷调查、市场调研广告：满意度回访、邀约等版本/规格功能：通过呼叫控制、语音转文本、自然语言处理等技术手段，实现机器自动外呼完成通话任务的工具。能够将客服人员从重复、机械的初步筛选、意向识别中解放出来，投入到更有价值的客户跟进中。提供机器人管理及配置，可视化的流程配置工具，知识库配置，全局语境配置，呼叫任务管理等能力。产品文档： https://help.a

2018-07-02

678

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。