CNN中常用的四种卷积详解-低调大师

CNN中常用的四种卷积详解

2020-08-03 898

卷积现在可能是深度学习中最重要的概念。正是靠着卷积和卷积神经网络，深度学习才超越了几乎其他所有的机器学习手段。这期我们一起学习下深度学习中常见的卷积有哪些？

1. 一般卷积

卷积在数学上用通俗的话来说就是输入矩阵与卷积核（卷积核也是矩阵）进行对应元素相乘并求和，所以一次卷积的结果的输出是一个数，最后对整个输入输入矩阵进行遍历，最终得到一个结果矩阵，说白了就是一个卷积核在图像上滑动，并求取对应元素相乘求和的过程，如下图：

卷积核为3*3，步长为2和填充的2D卷积

首先，一般情况下卷积层的作用都是用来自动提取图像的一些视觉特征，代替传统的手动方法提取特征不精确，不全面等缺点。常见的一般卷积操作都包括以下四个参数：

卷积核大小(Kernel Size)：卷积核定义了卷积的大小范围，在网络中代表感受野的大小，二维卷积核最常见的就是 3*3 的卷积核，也可以根据网络设计5*5或者7*7，甚至1*1等不同size的卷积核，来提取不同尺度的特征。
在卷积神经网络中，一般情况下，卷积核越大，感受野（receptive field）越大，看到的图片信息越多，所获得的全局特征越好。虽说如此，但是大的卷积核会导致计算量的暴增，不利于模型深度的增加，计算性能也会降低。如上图中卷积核的size为3*3.
步长（Stride）：卷积核的步长度代表提取的精度, 步长定义了当卷积核在图像上面进行卷积操作的时候，每次卷积跨越的长度。在默认情况下，步长通常为 1，但我们也可以采用步长是 2 的下采样过程，类似于 MaxPooling 操作。
对于size为3的卷积核，如果step为1，那么相邻步感受野之间就会有重复区域；如果step为2，那么相邻感受野不会重复，也不会有覆盖不到的地方；如果step为3，那么相邻步感受野之间会有一道大小为1颗像素的缝隙，从某种程度来说，这样就遗漏了原图的信息。
填充（Padding）：卷积核与图像尺寸不匹配，往往填充图像缺失区域，如上图，原始图片尺寸为5*5，卷积核的大小为3*3，如果不进行填充，步长为1的话，当卷积核沿着图片滑动后只能滑动出一个3*3的图片出来，这就造成了卷积后的图片和卷积前的图片尺寸不一致，这显然不是我们想要的结果，所以为了避免这种情况，需要先对原始图片做边界填充处理。
输入和输出通道数（Input & Output Channels）：卷积核的输入通道数（in depth）由输入矩阵的通道数所决定；输出矩阵的通道数（out depth）由卷积核的输出通道数所决定。每一层卷积有多少channel数，以及一共有多少层卷积，这些暂时没有理论支撑，一般都是靠感觉去设置几组候选值，然后通过实验挑选出其中的最佳值。这也是现在深度卷积神经网络虽然效果拔群，但是一直为人诟病的原因之一。

2. 扩张卷积

使用3内核进行2D卷积，扩展率为2且无填充

扩张卷积（Dilated Convolution）也被称为空洞卷积或者膨胀卷积，是在标准的卷积核中注入空洞，以此来增加模型的感受野（reception field）。相比原来的正常卷积操作，除了卷积核大小，步长和填充外，扩张卷积多了一个参数：dilation rate，指的是卷积核的点的间隔数量，比如常规的卷积操作dilatation rate为1。扩张的卷积为卷积层引入另一个参数，称为扩张率。这定义了卷积核中值之间的间距。扩张率为2的3x3内核与5x5内核具有相同的视野，而仅使用9个参数。想象一下，获取一个5x5内核并删除每一个第二列和第二行（间隔删除）。如之前的一篇文章：
为什么要用空洞卷积？

如下图,正常卷积核空洞卷积对比：

上图左侧为对0-9共10颗像素的正常3x3卷积，padding为same，stride=1的情况下，我们知道其卷积后共得到10个特征，每个特征的感受野均为3x3，如左侧红色的那个特征覆盖3,4,5三颗像素（想象二维情况下应该是3x3）。
上图右侧为对0-9共10颗像素的空洞3x3卷积，这里的3x3是指有效区域，在padding为same，stride=1的情况下，也得到了10个特征，但是每个特征的感受野为5x5，如右侧蓝色的那个特征覆盖2,3,4,5,6五颗像素（想象二维情况下应该是5x5）。

这就在不丢失特征分辨率的情况下扩大了感受野，进而对检测大物体有比较好的效果。所以总的来说，空洞卷积主要作用：不丢失分辨率的情况下扩大感受野；调整扩张率获得多尺度信息。但是对于一些很小的物体，本身就不要那么大的感受野来说，这就不那么友好了。

3. 转置卷积

转置卷积又叫反卷积、逆卷积。不过转置卷积是目前最为正规和主流的名称，因为这个名称更加贴切的描述了卷积的计算过程，而其他的名字容易造成误导。在主流的深度学习框架中，如TensorFlow，Pytorch，Keras中的函数名都是conv_transpose。所以学习转置卷积之前，我们一定要弄清楚标准名称，遇到他人说反卷积、逆卷积也要帮其纠正，让不正确的命名尽早的淹没在历史的长河中。
有大佬一句话总结：转置卷积相对于卷积在神经网络结构的正向和反向传播中做相反的运算。其实还是不是很理解。我们先从转置卷积的用途来理解下，转置卷积通常用于几个方面：

CNN可视化，通过反卷积将卷积得到的feature map还原到像素空间，来观察feature map对哪些pattern相应最大，即可视化哪些特征是卷积操作提取出来的；
FCN全卷积网络中，由于要对图像进行像素级的分割，需要将图像尺寸还原到原来的大小，类似upsampling的操作，所以需要采用反卷积；
GAN对抗式生成网络中，由于需要从输入图像到生成图像，自然需要将提取的特征图还原到和原图同样尺寸的大小，即也需要反卷积操作。

我们先来看看卷积和反卷积的图，简直不要太形象。
如下图正常卷积(convolution):
卷积核为 3x3；no padding , strides=1

正常卷积

转置卷积可以理解为upsample conv.如下图：

卷积核为:3x3; no padding , strides=1

转置卷积

从上面两个图可以看到，转置卷积和卷积有点类似，因为它产生与假设的反卷积层相同的空间分辨率。但是，对值执行的实际数学运算是不同的。转置卷积层执行常规卷积，但恢复其空间变换。需要注意的是：反卷积只能恢复尺寸，不能恢复数值。

4. 可分离卷积

任何看过MobileNet架构的人都会遇到可分离卷积（separable convolutions）这个概念。但什么是“可分离卷积”，它与标准的卷积又有什么区别？可分离卷积主要有两种类型：空间可分离卷积和深度可分离卷积。

空间可分离卷积

在可分离的卷积中，我们可以将内核操作分成多个步骤。让我们将卷积表示为y = conv（x，k），其中y是输出图像，x是输入图像，k是核。简单。接下来，假设k可以通过以下公式计算：k = k1.dot（k2）。这将使它成为可分离的卷积，因为我们可以通过用k1和k2进行2个1D卷积来得到相同的结果，而不是用k进行2D卷积。

Sobel X和Y滤镜

以Sobel内核为例，它通常用于图像处理。你可以通过乘以向量[1,0，-1]和[1,2,1] .T得到相同的内核。在执行相同操作时，这将需要6个而不是9个参数。上面的例子显示了所谓的空间可分卷积。
空间可分卷积的主要问题是并非所有卷积核都可以“分离”成两个较小的卷积核。这在训练期间变得特别麻烦，因为网络可能采用所有可能的卷积核，它最终只能使用可以分成两个较小卷积核的一小部分。

实际上，通过堆叠1xN和Nx1内核层，可以创建与空间可分离卷积非常相似的东西。这最近在一个名为EffNet的架构中使用，显示了有希望的结果。

深度可分离卷积

在神经网络中，我们通常使用称为深度可分离卷积的东西。这将执行空间卷积，同时保持通道分离，然后进行深度卷积。这里，通过一个例子可以最好地理解它（以下参考文献2）：
以输入图像为12x12x3的RGB图像为例，正常卷积是卷积核对3个通道同时做卷积。也就是说，3个通道，在一次卷积后，输出一个数。而深度可分离卷积分为两步：

第一步用三个卷积对三个通道分别做卷积，这样在一次卷积后，输出3个数。
这输出的三个数，再通过一个1x1x3的卷积核（pointwise核），得到一个数。

所以深度可分离卷积其实是通过两次卷积实现的。

第一步，对三个通道分别做卷积，输出三个通道的属性，如下图：

第二步，用卷积核1x1x3对三个通道再次做卷积，这个时候的输出就和正常卷积一样，是8x8x1：

如果要提取更多的属性，则需要设计更多的1x1x3卷积核心就可以(图片引用自原网站。感觉应该将8x8x256那个立方体绘制成256个8x8x1，因为他们不是一体的，代表了256个属性)：

可以看到，如果仅仅是提取一个属性，深度可分离卷积的方法，不如正常卷积。随着要提取的属性越来越多，深度可分离卷积就能够节省更多的参数。

文献1：
https://zhuanlan.zhihu.com/p/28186857
文献2：
https://blog.csdn.net/makefish/article/details/88716534

本文分享自微信公众号 - 智能算法（AI_Algorithm）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4584682/blog/4465687

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

代码被玩坏了？想撤销吗？看看就知道了

虽然自觉是一个Git工具的老手了，但是平时犯了一点错误，就发现有点捉襟见肘了。就好像今天我把一些代码玩坏了，想撤回到前几个版本去（此时已经push到远程分支），但是仔细一想：卧槽，这操作我好像不太熟练啊，于是乎就有了这篇文章了。一、git push撤销 1.1 使用场景代码已经修改并push到远程分支，想撤回到前几个版本，并且会删除本地代码所做的修改！ 1.2 示例场景如下图。 1.3 示例目标撤销第二、第三次提交代码，回到第一次提交代码 1.4 详细步骤 1.4.1 获取第一次提交commit版本号在idea的Terminal窗口输入git log查看提交日志，结果如图：将目标commit版本号复制保存留用。如果git log无法正常显示中文，在Terminal中使用如下命令： set LESSCHARSET=utf-8 1.4.2 将本地代码撤销至目标commit版本（高危操作，请明确利害关系）执行命令: git reset --hard 57f89f403fd8b373a44cf5ae8481402a74799bee 结果： HEAD is now at 57f8...

2020-05-19

588

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！现代企业的成功取决于以数据为中心的规划速度和效率。数据提供了一种战略优势，为开发人员提供正确的工具和数据对于满足业务需求至关重要。因此，企业正在迅速认识到容器相对于虚拟机的优势，以实现ITOps和DevOps实践的现代化。在对IT存储管理员最近的一项调查中，Enterprise Storage Group(ESG)公司发现，41%的受访者表示将容器用于生产应用程序，另外33%的受访者表示将容器用于测试/开发活动。人们通常将容器与虚拟机进行比较，尽管容器规模更小并且需要的开销更少。这两种应用程序可以采用相同的基础设施，这一点很诱人。实际上，容器与虚拟机有很大不同。如果目标是使基于容器的应用程序环境的价值最大化，那么了解这些差异如何影响IT基础设施设计是至关重要的。容器与虚拟机之间的主要区别与虚拟机不同，容器持续的时间是短暂的，它们会自动启动和关闭。但是像虚拟机一样，容器需要访问持久性存储，以在生产环境中发挥其全部潜力。如果没有持久性存储，则在容器关闭时数据会“死亡”。基于容器的应用...

2020-08-03

690

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。