我的深度学习论文阅读之旅（一）-低调大师

我的深度学习论文阅读之旅（一）

2018-05-27 666

0. 参考资料

对 CNN 的研究，目前集中在三个维度：channel， filter，和 residual。
目标是把模型做小、做强、做到移动端，精度差点，没关系，可以加数据，离线多跑几轮。

1. Channel

无论 Xception，还是 ResNeXt，还有面向移动端的 ShuffleNet 和 MobileNet。都是基于 Group Convolution思想在 channel 维度进行“网络工程”，搭建新的模型。

Xception 的核心思想是：Depth-wise Separable Convolution

1.1 Group Convolution

1.2 Separable Convolution

在卷积层中间插入 \(1 \times 1\) 卷积，即 pointwise convolution。举个例子，对经典的卷积操作，如果 OD 是 \(256\)，ID 是 \(128\)，卷积核大小 \(3\times3\)，需要的参数为 \(128 \times 3 \times 3 \times 256=294912\) 个参数，而 Spearable 卷积方法，假如 \(DM=4\)，这样中间层的 channel 数为
\(128 \times 4=512\)，再经过 \(1 \times 1\) 卷积降维到 \(256\) 个 channel，需要的总参数为：\(128 \times 3 \times 3 \times 4 + 128 \times 4 \times 1 \times 1 \times 256=135680\)，参数量相当于普通卷积的 \(46\%\)，还增加了通道数（\(128 \times 4=512\)）增强了特征表达能力。

所以说，理想的卷积 Block 应该是先用 \(1 \times 1\) 卷积核降 channel，然后再进行 \(3 \times 3\) 卷积提取特征，最后再用 \(1 \times 1\) 卷积核降 channel。

1.3 Xception

利用上述结构重新设计 Inception model block，就是 Xception；重新设计 Resnet，就是 ResNeXt 架构。以达到在减少参数量的情况下增加模型的层数，既减少了存储空间，还增强了模型的表达能力。

通常来讲，如果对 channel 进行分组卷积，各小组就分头行动，互相没有交流，这样显然没有充分利用 channel 的信息。ShuffleNet 在分组之前，先将 channel 随记打乱，这样对信息的利用更充分，因此可以通过设计降低模型参数量而不影响模型的表达能力。

2. Filter

2.1 Wavenet

经典 CNN 的 Filter 是在邻域内采样卷积，如 \(3 \times 3\) 卷积核是在 \(8\) 邻域采样。

但是，Filter 可以跨点采样进行卷积，从而可以利用更大范围内的信息，即 Dilated CNN，最早应用于图像语义分割，去年谷歌提出的 Wavenet 模型将 CNN 拓展到语音识别和语音合成。

2.2 Dilated Resnet

将 Dilated CNN 的思想应用到 Resnet 架构中，就是 CVPR 2017 的 “Dilated Residual Networks”

3. Connection

ResNet 的 Connection 方式是将输入和输出相加，形成一个残差 Block。DenseNet 则更进一步，在每个 Block 内，将输入和输出直接拼接，而且在每一层都和之前所有层的输出拼接，这样可以减少中间层的通道数。

而最新的 Dual Path Networks 模型，则是融合了 ResNet 和 DenseNet 的优点：特征重利用和特征重提取。采用了双通道架构：

可以预想，接下来，将会有模型融合以上三点的集大成者？

启发与思考

现在越来越多的 CNN 模型从巨型网络到轻量化网络一步步演变，模型准确率也越来越高。现在工业界追求的重点已经不是准确率的提升（因为都已经很高了），都聚焦于速度与准确率的 trade off，都希望模型又快又准。因此从原来 AlexNet、VGGnet，到体积小一点的 Inception、Resnet 系列，到目前能移植到移动端的 mobilenet、ShuffleNet（体积能降低到 \(0.5\) mb！），我们可以看到这样一些趋势：

卷积核方面：

大卷积核用多个小卷积核代替；
单一尺寸卷积核用多尺寸卷积核代替；
固定形状卷积核趋于使用可变形卷积核；
使用 \(1 \times 1\) 卷积核（bottleneck 结构）。

卷积层通道方面：

标准卷积用 depthwise 卷积代替；
使用分组卷积；
分组卷积前使用 channel shuffle；
通道加权计算。

卷积层连接方面：

使用 skip connection，让模型更深；
densely connection，使每一层都融合上其它层的特征输出（DenseNet）

启发

类比到通道加权操作，卷积层跨层连接能否也进行加权处理？bottleneck + Group conv + channel shuffle + depthwise 的结合会不会成为以后降低参数量的标准配置？

探寻有趣之事！

微信关注我们

原文链接：https://yq.aliyun.com/articles/609344

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

不只是一朵“云”，蚂蚁金融科技如何助力云上移动金融？

数字化转型、金融科技潮流势不可挡，触动了所有金融机构，也成为各类机构的旗帜和标语。而金融上云是最基础的第一步，以云平台为基础，金融机构才能整合AI、大数据、区块链等技术应用解决方案。 5月11日，杭州西子湖畔，移动智惠金融峰会召开。与会人员超过500人，来自200多家金融机构。可见，金融科技对传统金融机构巨大的吸引力。云上的移动金融成趋势随着普惠金融战略的确立，金融机构尤其是银行业都纷纷推进零售转型，提高用户体验，拓展场景服务。而这一切金融创新都对技术和业务的创新能力提出挑战。更甚的是正在发展的移动金融趋势。整个行业都看到了科技在金融领域可以发挥的巨大潜力和前景。据雷锋网(公众号：雷锋网)AI金融评论调查了解，在场的大部分参会嘉宾都认为目前金融机构存在创新不足，科技跟不上发展形式，并认为技术对行业有颠覆的作用。蚂蚁金服副总裁刘伟光认

2018-05-28

618

10月19-20日，由LiveVideoStack音视频技术社区、中国最大的IT社区和服务平台CSDN联合出品，第二届LiveVideoStackCon音视频技术大会将会在北京丽亭华苑酒店举行。这是一场多媒体技术人的聚会，现已开启讲师/出品人招募通道，期待你的加入。文 / 包研图为LiveVideoStackCon 2017主题演讲，大会联席主席陆坚致辞距离第一届LiveVideoStackCon过去半年多的时间，就在今天，我们正式启动了LiveVideoStackCon 2018大会，在接下来的近5个月的时间内，大会组委会将和多媒体生态圈中的各路高手紧密协作，携手打造一场多媒体技术人的顶级聚会。 Why LiveVideoStackCon？如果有人问我们，为什么要做LiveVideoStackCon，回答就在这里：首先，我们喜欢和技术人在一起。他们足够纯粹，率真，执着，有时还很可爱，他们对知识的渴求和阅读量名列前茅，还有各种黑程序员的段子。如果你不知道和程序员聊什么，那么“哪一门是最好的编程语言”，“CTO应不应该写代码”这两个话题会顷刻间把他们变成话痨。最重要的是，我们相...

2018-05-29

665

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。